目次
なぜ「成功率」を財務指標として読むべきか
エージェント運用のコスト議論は、長らく「どのモデルを使うか」「どこにホスティングするか」に偏ってきた。だが2026年に入り、エージェントが実際に叩くMCPサーバーやAPIの成功率そのものがコスト要因だという認識が広がりつつある。
理由はシンプルだ。エージェントはツール呼び出しが失敗しても、そこで止まらない。エラーを読み、原因を推論し、リトライするか代替手段を取るかを判断する。1回の失敗は、追加のLLMターンを1つ以上発生させる。そして会話履歴が伸びるほど、後続ターンの入力トークンも膨らんでいく。成功率が低いサービスは、ユーザーが目にする請求書を静かに、しかし確実に押し上げる。
本記事ではこの追加コストを「リトライ税(Retry Tax)」と呼ぶ。リトライ税は、KanseiLinkが225+の日本SaaSについて集計しているエージェントの実測アウトカム報告(2026年5月時点で累計1,404件)から、定量的に試算できる。
「成功率80%」という数字を、多くのチームは「まあ及第点」と読む。だが財務的に読み直すと、成功率80%は同じ成果に平均1.25回の試行が必要=25%のリトライ税という意味になる。成功率は品質管理表の数字ではなく、原価計算の係数として扱うべきだ。
リトライ税の計算式 — 期待試行回数は 1/p
各試行が独立で成功確率 p だと近似すると、1回成功させるまでの期待試行回数は 1/p(幾何分布の期待値)で表せる。これがリトライ税の核となる式だ。
| 成功率 p | 期待試行回数 (1/p) | 成功率91%基準のリトライ税 | 財務的な読み方 |
|---|---|---|---|
| 91% | 約1.10回 | 基準(1.0x) | ほぼ無税 |
| 80% | 約1.25回 | 約1.14x | +14%の追加トークン |
| 66% | 約1.52回 | 約1.38x | +38%の追加トークン |
| 50% | 約2.00回 | 約1.82x | 呼び出しコストが約1.8倍 |
| 39% | 約2.56回 | 約2.33x | 呼び出しコストが約2.3倍 |
| 20% | 約5.00回 | 約4.55x | 呼び出しコストが約4.5倍 |
注目すべきは曲線の形だ。成功率が91%から80%へ落ちても税率は14%増にとどまるが、50%を切ったあたりから急激に立ち上がる。成功率20%のサービスは、91%のサービスと同じ成果を出すために約4.5倍のツール呼び出しを必要とする。これは「ちょっと不便」ではなく、原価が4倍以上違うという話だ。
1/p はあくまで「ツール呼び出し回数」の期待値だ。実際のリトライ税はこれより重い。各リトライは(1)エラーレスポンス全文のコンテキスト取り込み、(2)原因推論のためのLLMターン、(3)膨らんだ会話履歴を抱えた後続ターン、を伴う。後述の通り、リトライ税は呼び出し回数だけでなくトークン量・LLM呼び出し回数・実行時間の3軸で掛け算的に効く。
KanseiLink実測データ — 4つの切り替えで見る節約幅
KanseiLinkの audit_cost ツールは、エージェントのAPI支出を4階層(モデル選択・サービス代替・アーキテクチャ・インフラ)で分析し、最適化を提案する。2026年5月15日時点の分析(累計1,404件のアウトカム報告ベース)が示した「サービス代替」レイヤーの提案を見ると、リトライ税の実額がよく分かる。
| 現行サービス | 成功率 | 推奨切替先 | 切替後 成功率 | 推定トークン削減 |
|---|---|---|---|---|
| LINE WORKS | 20% | Slack MCP | 91% | 約71% |
| Talentio | 35% | KING OF TIME | 66% | 約31% |
| SmartHR | 39% | KING OF TIME | 66% | 約27% |
| Chatwork MCP | 66% | Slack MCP | 91% | 約25% |
最も極端なのが LINE WORKS → Slack MCP だ。成功率20%から91%へ。get_insights でLINE WORKSを引くと、5件のアウトカム報告のうち成功は1件、残りは search_miss(意図したリソースに辿り着けない)で占められている。一方Slack MCPは113件の報告で成功率91%、主なエラーは軽微な api_error が9件。この差が、同じ「メッセージを送る」というタスクで約71%のトークン削減として表れる。
注意したいのは SmartHR のケースだ。SmartHRは日本のHR SaaSの市場リーダーだが、KanseiLink実測では成功率39%(92件の報告)。common_errors の内訳は api_error 36件、auth_expired 10件、search_miss 7件。市場での知名度と、エージェントから見た「叩きやすさ」は別物であり、リトライ税は知名度を考慮してくれない。
リトライ税の実額イメージ
リトライ税は「掛け算」で効く
前述の通り、リトライ税は「ツール呼び出しが N 回に増える」だけでは終わらない。失敗1回が連鎖的に複数のコストを生む。
- トークン軸: エラーレスポンス全文がコンテキストに入り、リトライ判断のLLMターンが追加され、会話履歴が伸びた状態で後続ターンが回る。失敗が後半で起きるほど、抱えている履歴が大きく入力トークンが重い。
- LLM呼び出し軸: 1回の失敗につき最低1つ、多くは2〜3つの追加ターン(エラー解析→リトライ実行→結果確認)。モデル単価がそのまま乗る。
- レイテンシ軸: 失敗→リトライは実行時間を積み増す。SmartHRの平均レイテンシは337ms、Slack MCPは163ms。遅いサービスを2.3回叩く構図は、ユーザー体感を二重に悪化させる。
だからこそ、リトライ税対策は「成功率を上げる」だけでなく「失敗1回あたりの単価を下げる」両面で考える価値がある。後者で最も効くのがプロンプトキャッシングだ。
プロンプトキャッシングはリトライ税の「税率」を下げる
Claude APIのプロンプトキャッシングでは、キャッシュ読み取りが基本入力単価の0.1倍(90%引き)になる(2026年5月時点。5分キャッシュの書き込みは1.25倍、1時間キャッシュは2倍)。具体的には、Claude Sonnet 4.6 のキャッシュ読み取りは $3/100万トークンが $0.30 に、Claude Opus 4.7 は $5 が $0.50 になる。
リトライのたびに再送されるのは、システムプロンプト・ツール定義・会話履歴の固定部分だ。これらをキャッシュに載せておけば、リトライが発生しても入力トークンの大半が90%引きで処理される。リトライ税そのものを消すわけではないが、税率を大きく下げる。リトライが避けられないワークロードほど、キャッシュの効果は大きい。
# Claude API: 固定部分をキャッシュに載せる(疑似コード)
messages.create(
model="claude-sonnet-4-6",
system=[
{ "type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"} } # ← リトライ時もキャッシュ読み取り(0.1x)
],
tools=[ ...TOOL_DEFS, {"cache_control": {"type": "ephemeral"}} ],
messages=conversation,
)
リトライ税を下げる4階層
KanseiLinkの audit_cost の4階層フレームに沿って、リトライ税の削減策を効果の大きい順に並べる。
- サービス代替(最大効果) — 成功率20%→91%のような桁違いの改善はここでしか得られない。
search_servicesやget_insightsで代替候補の成功率を確認し、タスクが許す限り高成功率サービスへ寄せる。 - 初回成功率を上げる — 既知のワークアラウンドを事前に組み込む。例: SmartHRはv1ではなくv2エンドポイントを使う(
auth_expired回避)、kintoneは/records.jsonの一括APIを使う(個別呼び出しを最大50分の1に)、Chatworkはapplication/x-www-form-urlencodedでPOSTする(JSON送信で400エラーになる)。get_service_tipsでこれらは事前に取得できる。 - 失敗単価を下げる(プロンプトキャッシング) — システムプロンプト・ツール定義・会話履歴の固定部分をキャッシュ。リトライが避けられないワークロードで税率を下げる。
- インフラ層 — Vercel→Cloudflare Workers移行(高トラフィックで最大85%削減)、AWS App Runner利用者はECS Express Mode等への移行検討(App Runnerは2026年4月30日以降、新規受付停止・メンテナンスモード移行)。リトライ税とは別軸だが、運用コスト全体を見るなら同時に点検したい。
まず get_insights で現行サービスの成功率を確認する。50%を切っているなら、それは「不便」ではなく「原価が約1.8倍以上」のサインだ。audit_cost のサービス代替提案を見て、タスクが許す範囲で高成功率サービスへ。同時にプロンプトキャッシングを有効化し、避けられないリトライの税率を下げる。この2手だけで、多くのエージェントは目に見えてトークン消費が落ちる。
FAQ
「リトライ税」とは何ですか?
MCPサーバーやAPIの成功率が低いことで追加発生するトークン消費・レイテンシ・LLM呼び出しコストの総称です。1回成功させる期待試行回数は成功率pに対して 1/p で近似でき、成功率20%なら平均5回、91%なら平均1.1回。成功率20%のサービスは91%の約4.5倍のトークンを同じ成果のために消費します。
成功率が低いと、なぜコストが「掛け算」で増えるのですか?
失敗1回のコストはツール呼び出しの入力トークンだけではないからです。失敗するとエージェントはエラー全文の取り込み・原因推論・リトライ判断という追加LLMターンを回し、会話履歴が伸びるほど後続ターンの入力トークンも増えます。トークン・LLM呼び出し回数・実行時間の3軸が同時に悪化します。
プロンプトキャッシングはリトライ税にどう効きますか?
リトライ税の「税率」を下げます。Claude APIのキャッシュ読み取りは基本入力単価の0.1倍(90%引き)です(2026年5月時点)。リトライ時に再送されるシステムプロンプトやツール定義をキャッシュに載せておけば、リトライが発生しても入力トークンの大半が90%引きで処理されます。
リトライ税を下げる一番効果的な方法は?
成功率の高い代替サービスへの切り替えです。成功率20%→91%のような桁違いの改善はサービス代替でしか得られず、トークン削減効果が最大になります。次点はプロンプトキャッシング、一括API/バッチAPI、既知ワークアラウンドの事前組み込みです。
成功率はどこで確認できますか?
KanseiLink MCPの get_insights で、対象サービスの success_rate・avg_latency_ms・common_errors(既知ワークアラウンド付き)・confidence_score を取得できます。search_services でも各サービスの success_rate が返ります。接続コマンドは npx -y @kansei-link/mcp-server です。
本記事の成功率・レイテンシ・トークン削減率は、KanseiLinkがエージェントから収集した実測アウトカム報告(2026年5月15日時点で累計1,404件)を集計したものです。サービス別成功率は get_insights 実測値: LINE WORKS 20%(5件)、Slack MCP 91%(113件)、SmartHR 39%(92件)、Backlog 90%(91件)。切り替え時のトークン削減率は audit_cost ツールの推定値(confidence: medium)で、実際のワークロード・タスク構成により変動します。「期待試行回数 1/p」は各試行が独立で成功確率一定という近似に基づく下限値です。プロンプトキャッシングの料金(キャッシュ読み取り0.1倍、5分書き込み1.25倍、1時間書き込み2倍)は2026年5月時点のClaude API公式ドキュメントに基づきます(platform.claude.com/docs/en/build-with-claude/prompt-caching)。AWS App Runnerの新規受付停止(2026年4月30日)・メンテナンスモード移行はAWS公式アナウンスに基づきます。サービスの成功率・料金は変動するため、本番判断前に各 get_insights および各社公式の最新情報をご確認ください。