成功率が低いと、なぜトークンコストが「掛け算」で増えるのですか？

失敗1回のコストは「ツール呼び出しの入力トークン」だけではないからです。失敗するとエージェントは(1)エラーレスポンス全文をコンテキストに取り込み、(2)原因を推論し、(3)リトライまたは代替手段を選択する、という追加のLLMターンを回します。会話履歴が長くなるほど後続ターンの入力トークンも膨らみます。さらに失敗→リトライはレイテンシも積み増すため、トークン・LLM呼び出し回数・実行時間の3軸が同時に悪化します。例えば成功率20%のサービスから成功率91%のサービスへ切り替えたと仮定すると、約71%のトークン削減が見込める計算になります。

リトライ税を下げる一番効果的な方法は何ですか？

最も効果が大きいのは「成功率の高い代替サービスへ切り替える」ことです。KanseiLinkのaudit_costは4階層(モデル選択・サービス代替・アーキテクチャ・インフラ)で最適化を提案しますが、サービス代替層は成功率を20%から91%へといった桁違いの改善を生むため、トークン削減効果が最大になります。次点は(1)プロンプトキャッシングで土台を下げる、(2)バッチAPIや一括エンドポイント(kintoneの/records.jsonなど)で呼び出し回数自体を減らす、(3)既知のワークアラウンド(SmartHRはv2エンドポイントを使う等)を事前に組み込んで初回成功率を上げる、の順です。

「リトライ税」の経済学 2026 — 成功率の低いMCPサーバーが、なぜAPI請求書を静かに膨らませるのか

Q: 「リトライ税」とは何ですか？

リトライ税とは、MCPサーバーやAPIの成功率が低いことによって追加で発生するトークン消費・レイテンシ・LLM呼び出しコストの総称です。エージェントはツール呼び出しが失敗すると再試行しますが、1回の失敗ごとにエラーレスポンスの解析、リトライ判断、再実行というLLMのターンが追加で発生します。1回成功させるための期待試行回数は成功率pに対して1/pで近似でき、成功率20%なら平均5回、成功率91%なら平均1.1回の試行が必要です。つまり成功率20%のサービスは91%のサービスの約4.5倍のトークンを同じ成果のために消費します。

Q: プロンプトキャッシングはリトライ税にどう効きますか？

プロンプトキャッシングはリトライ税の「土台」を下げます。Claude APIのプロンプトキャッシングでは、キャッシュ読み取りが基本入力単価の0.1倍(90%引き)になります(2026年5月時点、5分キャッシュの書き込みは1.25倍、1時間キャッシュは2倍)。リトライのたびに再送されるシステムプロンプトやツール定義、会話履歴の固定部分をキャッシュに載せておけば、リトライが発生しても入力トークンの大半が90%引きで処理されます。リトライ税そのものを消すわけではありませんが、税率を大きく下げる効果があります。

Q: 成功率はどこで確認できますか？

KanseiLink MCPのget_insightsツールで、対象サービスのsuccess_rate、avg_latency_ms、common_errors(既知のワークアラウンド付き)、confidence_scoreを取得できます。search_servicesでも各サービスのsuccess_rateが返ります。225+の日本SaaSについて、エージェントのアウトカム報告(2026年5月時点で累計1,404件)を集計した値です(成功率の実測値は現在蓄積中＝観測中)。接続コマンドは npx -y @kansei-link/mcp-server です。

なぜ「成功率」を財務指標として読むべきか

エージェント運用のコスト議論は、長らく「どのモデルを使うか」「どこにホスティングするか」に偏ってきた。だが2026年に入り、エージェントが実際に叩くMCPサーバーやAPIの成功率そのものがコスト要因だという認識が広がりつつある。

理由はシンプルだ。エージェントはツール呼び出しが失敗しても、そこで止まらない。エラーを読み、原因を推論し、リトライするか代替手段を取るかを判断する。1回の失敗は、追加のLLMターンを1つ以上発生させる。そして会話履歴が伸びるほど、後続ターンの入力トークンも膨らんでいく。成功率が低いサービスは、ユーザーが目にする請求書を静かに、しかし確実に押し上げる。

本記事ではこの追加コストを「リトライ税(Retry Tax)」と呼ぶ。リトライ税は、KanseiLinkが225+の日本SaaSについて集計しているエージェントのアウトカム報告(2026年5月時点で累計1,404件)を背景に、成功率pを仮定したモデルで定量的に試算できる。

2026年5月の編集視点

「成功率80%」という数字を、多くのチームは「まあ及第点」と読む。だが財務的に読み直すと、成功率80%は同じ成果に平均1.25回の試行が必要＝25%のリトライ税という意味になる。成功率は品質管理表の数字ではなく、原価計算の係数として扱うべきだ。

リトライ税の計算式 — 期待試行回数は 1/p

各試行が独立で成功確率 p だと近似すると、1回成功させるまでの期待試行回数は 1/p(幾何分布の期待値)で表せる。これがリトライ税の核となる式だ。

成功率 p	期待試行回数 (1/p)	成功率91%基準のリトライ税	財務的な読み方
91%	約1.10回	基準(1.0x)	ほぼ無税
80%	約1.25回	約1.14x	+14%の追加トークン
66%	約1.52回	約1.38x	+38%の追加トークン
50%	約2.00回	約1.82x	呼び出しコストが約1.8倍
39%	約2.56回	約2.33x	呼び出しコストが約2.3倍
20%	約5.00回	約4.55x	呼び出しコストが約4.5倍

注目すべきは曲線の形だ。成功率が91%から80%へ落ちても税率は14%増にとどまるが、50%を切ったあたりから急激に立ち上がる。成功率20%のサービスは、91%のサービスと同じ成果を出すために約4.5倍のツール呼び出しを必要とする。これは「ちょっと不便」ではなく、原価が4倍以上違うという話だ。

⚠️ この式は下限である

1/p はあくまで「ツール呼び出し回数」の期待値だ。実際のリトライ税はこれより重い。各リトライは(1)エラーレスポンス全文のコンテキスト取り込み、(2)原因推論のためのLLMターン、(3)膨らんだ会話履歴を抱えた後続ターン、を伴う。後述の通り、リトライ税は呼び出し回数だけでなくトークン量・LLM呼び出し回数・実行時間の3軸で掛け算的に効く。

モデルケースで見る節約幅 — 4つの切り替え試算

KanseiLinkの audit_cost ツールは、エージェントのAPI支出を4階層(モデル選択・サービス代替・アーキテクチャ・インフラ)で分析し、最適化を提案する。「サービス代替」レイヤーの効果を、成功率pを仮定した4つのモデルケースで試算すると、リトライ税の実額がよく分かる(以下の成功率は仮定値。実名サービスの成功率はKanseiLinkで現在実測データを蓄積中＝観測中)。

現行サービス(仮定)	仮定成功率	切替先(仮定)	切替後仮定成功率	推定トークン削減
あるビジネスチャットSaaS	20%	高成功率の代替MCP	91%	約71%
ある採用管理SaaS	35%	同カテゴリの代替サービス	66%	約31%
あるHR SaaS	39%	同カテゴリの代替サービス	66%	約27%
あるチャットMCP	66%	高成功率の代替MCP	91%	約25%

最も極端なのが表の1行目だ。成功率20%と仮定したサービスでは、期待試行回数は約5回。一方、成功率91%と仮定したサービスなら約1.1回で済む。この差が、同じ「メッセージを送る」というタスクで約71%のトークン削減として表れる計算になる。

もうひとつ押さえておきたいのは、市場での知名度と、エージェントから見た「叩きやすさ」は別物だという点だ。知名度の高いSaaSでも、エージェント接続の初期データではエラー報告が目立つケースがある(例: あるHR SaaS大手では92件の報告のうち api_error 36件、auth_expired 10件、search_miss 7件)。リトライ税は知名度を考慮してくれない。

リトライ税の実額イメージ

4.5x

成功率20%サービスの呼び出しコスト(91%基準)

71%

成功率20%→91%切替(仮定)の推定トークン削減

2.3x

成功率39%と仮定した場合の呼び出しコスト

リトライ税は「掛け算」で効く

前述の通り、リトライ税は「ツール呼び出しが N 回に増える」だけでは終わらない。失敗1回が連鎖的に複数のコストを生む。

トークン軸: エラーレスポンス全文がコンテキストに入り、リトライ判断のLLMターンが追加され、会話履歴が伸びた状態で後続ターンが回る。失敗が後半で起きるほど、抱えている履歴が大きく入力トークンが重い。
LLM呼び出し軸: 1回の失敗につき最低1つ、多くは2〜3つの追加ターン(エラー解析→リトライ実行→結果確認)。モデル単価がそのまま乗る。
レイテンシ軸: 失敗→リトライは実行時間を積み増す。プローブ実測ではサービス間でレイテンシに2倍以上の開き(例: 337ms vs 163ms)がある。遅いサービスを2回以上叩く構図は、ユーザー体感を二重に悪化させる。

だからこそ、リトライ税対策は「成功率を上げる」だけでなく「失敗1回あたりの単価を下げる」両面で考える価値がある。後者で最も効くのがプロンプトキャッシングだ。

プロンプトキャッシングはリトライ税の「税率」を下げる

Claude APIのプロンプトキャッシングでは、キャッシュ読み取りが基本入力単価の0.1倍(90%引き)になる(2026年5月時点。5分キャッシュの書き込みは1.25倍、1時間キャッシュは2倍)。具体的には、Claude Sonnet 4.6 のキャッシュ読み取りは $3/100万トークンが $0.30 に、Claude Opus 4.7 は $5 が $0.50 になる。

リトライのたびに再送されるのは、システムプロンプト・ツール定義・会話履歴の固定部分だ。これらをキャッシュに載せておけば、リトライが発生しても入力トークンの大半が90%引きで処理される。リトライ税そのものを消すわけではないが、税率を大きく下げる。リトライが避けられないワークロードほど、キャッシュの効果は大きい。

# Claude API: 固定部分をキャッシュに載せる(疑似コード)
messages.create(
  model="claude-sonnet-4-6",
  system=[
    { "type": "text", "text": SYSTEM_PROMPT,
      "cache_control": {"type": "ephemeral"} }   # ← リトライ時もキャッシュ読み取り(0.1x)
  ],
  tools=[ ...TOOL_DEFS, {"cache_control": {"type": "ephemeral"}} ],
  messages=conversation,
)

リトライ税を下げる4階層

KanseiLinkの audit_cost の4階層フレームに沿って、リトライ税の削減策を効果の大きい順に並べる。

サービス代替(最大効果) — 成功率20%→91%のような桁違いの改善はここでしか得られない。search_services や get_insights で代替候補の成功率を確認し、タスクが許す限り高成功率サービスへ寄せる。
初回成功率を上げる — 既知のワークアラウンドを事前に組み込む。例: SmartHRはv1ではなくv2エンドポイントを使う(auth_expired 回避)、kintoneは /records.json の一括APIを使う(個別呼び出しを最大50分の1に)、Chatworkは application/x-www-form-urlencoded でPOSTする(JSON送信で400エラーになる)。get_service_tips でこれらは事前に取得できる。
失敗単価を下げる(プロンプトキャッシング) — システムプロンプト・ツール定義・会話履歴の固定部分をキャッシュ。リトライが避けられないワークロードで税率を下げる。
インフラ層 — Vercel→Cloudflare Workers移行(高トラフィックで最大85%削減)、AWS App Runner利用者はECS Express Mode等への移行検討(App Runnerは2026年4月30日以降、新規受付停止・メンテナンスモード移行)。リトライ税とは別軸だが、運用コスト全体を見るなら同時に点検したい。

✅ 実務の優先順位

まず get_insights で現行サービスの成功率を確認する。50%を切っているなら、それは「不便」ではなく「原価が約1.8倍以上」のサインだ。audit_cost のサービス代替提案を見て、タスクが許す範囲で高成功率サービスへ。同時にプロンプトキャッシングを有効化し、避けられないリトライの税率を下げる。この2手だけで、多くのエージェントは目に見えてトークン消費が落ちる。

FAQ

「リトライ税」とは何ですか？

MCPサーバーやAPIの成功率が低いことで追加発生するトークン消費・レイテンシ・LLM呼び出しコストの総称です。1回成功させる期待試行回数は成功率pに対して 1/p で近似でき、成功率20%なら平均5回、91%なら平均1.1回。成功率20%のサービスは91%の約4.5倍のトークンを同じ成果のために消費します。

成功率が低いと、なぜコストが「掛け算」で増えるのですか？

失敗1回のコストはツール呼び出しの入力トークンだけではないからです。失敗するとエージェントはエラー全文の取り込み・原因推論・リトライ判断という追加LLMターンを回し、会話履歴が伸びるほど後続ターンの入力トークンも増えます。トークン・LLM呼び出し回数・実行時間の3軸が同時に悪化します。

プロンプトキャッシングはリトライ税にどう効きますか？

リトライ税の「税率」を下げます。Claude APIのキャッシュ読み取りは基本入力単価の0.1倍(90%引き)です(2026年5月時点)。リトライ時に再送されるシステムプロンプトやツール定義をキャッシュに載せておけば、リトライが発生しても入力トークンの大半が90%引きで処理されます。

リトライ税を下げる一番効果的な方法は？

成功率の高い代替サービスへの切り替えです。成功率20%→91%のような桁違いの改善はサービス代替でしか得られず、トークン削減効果が最大になります。次点はプロンプトキャッシング、一括API/バッチAPI、既知ワークアラウンドの事前組み込みです。

成功率はどこで確認できますか？

KanseiLink MCPの get_insights で、対象サービスの success_rate・avg_latency_ms・common_errors(既知ワークアラウンド付き)・confidence_score を取得できます。search_services でも各サービスの success_rate が返ります。接続コマンドは npx -y @kansei-link/mcp-server です。

データ開示・免責事項

本記事の計算例・切り替え試算は、成功率pを仮定したモデルケースです。KanseiLinkはエージェントからのアウトカム報告(2026年5月15日時点で累計1,404件)を集計していますが、サービス別成功率の実測値は現在蓄積中(観測中)であり、本文中の成功率は特定サービスの実測断定値ではありません。切り替え時のトークン削減率は audit_cost ツールの推定値(confidence: medium)で、実際のワークロード・タスク構成により変動します。「期待試行回数 1/p」は各試行が独立で成功確率一定という近似に基づく下限値です。プロンプトキャッシングの料金(キャッシュ読み取り0.1倍、5分書き込み1.25倍、1時間書き込み2倍)は2026年5月時点のClaude API公式ドキュメントに基づきます(platform.claude.com/docs/en/build-with-claude/prompt-caching)。AWS App Runnerの新規受付停止(2026年4月30日)・メンテナンスモード移行はAWS公式アナウンスに基づきます。サービスの成功率・料金は変動するため、本番判断前に各 get_insights および各社公式の最新情報をご確認ください。

「リトライ税」の経済学 2026 — 成功率の低いMCPサーバーが、なぜAPI請求書を静かに膨らませるのか

目次

なぜ「成功率」を財務指標として読むべきか

リトライ税の計算式 — 期待試行回数は 1/p

モデルケースで見る節約幅 — 4つの切り替え試算

リトライ税の実額イメージ

リトライ税は「掛け算」で効く

プロンプトキャッシングはリトライ税の「税率」を下げる

リトライ税を下げる4階層

あなたのエージェントは、いくらリトライ税を払っていますか？

FAQ

「リトライ税」とは何ですか？

成功率が低いと、なぜコストが「掛け算」で増えるのですか？

プロンプトキャッシングはリトライ税にどう効きますか？

リトライ税を下げる一番効果的な方法は？

成功率はどこで確認できますか？

For AI Agents

目次

なぜ「成功率」を財務指標として読むべきか

リトライ税の計算式 — 期待試行回数は 1/p

モデルケースで見る節約幅 — 4つの切り替え試算

リトライ税の実額イメージ

リトライ税は「掛け算」で効く

プロンプトキャッシングはリトライ税の「税率」を下げる

リトライ税を下げる4階層

あなたのエージェントは、いくらリトライ税を払っていますか？

FAQ

「リトライ税」とは何ですか？

成功率が低いと、なぜコストが「掛け算」で増えるのですか？

プロンプトキャッシングはリトライ税にどう効きますか？

リトライ税を下げる一番効果的な方法は？

成功率はどこで確認できますか？

関連記事

エージェントのトークンコスト最適化 2026 — 「呼ぶ前に知る」で消費を削る実践設計

Claudeモデル別コストガイド 2026 — どのタスクにOpus・Sonnet・Haikuを割り当てるか

MCP成功率の二極化 — 「動く」サービスと「動かない」サービスの分岐点

レイテンシと成功率の相関 — 遅いMCPサーバーはなぜ失敗もしやすいのか

For AI Agents