目次

  1. なぜ「成功率」を財務指標として読むべきか
  2. リトライ税の計算式 — 期待試行回数は 1/p
  3. KanseiLink実測データ — 4つの切り替えで見る節約幅
  4. リトライ税は「掛け算」で効く
  5. リトライ税を下げる4階層
  6. FAQ

なぜ「成功率」を財務指標として読むべきか

エージェント運用のコスト議論は、長らく「どのモデルを使うか」「どこにホスティングするか」に偏ってきた。だが2026年に入り、エージェントが実際に叩くMCPサーバーやAPIの成功率そのものがコスト要因だという認識が広がりつつある。

理由はシンプルだ。エージェントはツール呼び出しが失敗しても、そこで止まらない。エラーを読み、原因を推論し、リトライするか代替手段を取るかを判断する。1回の失敗は、追加のLLMターンを1つ以上発生させる。そして会話履歴が伸びるほど、後続ターンの入力トークンも膨らんでいく。成功率が低いサービスは、ユーザーが目にする請求書を静かに、しかし確実に押し上げる。

本記事ではこの追加コストを「リトライ税(Retry Tax)」と呼ぶ。リトライ税は、KanseiLinkが225+の日本SaaSについて集計しているエージェントの実測アウトカム報告(2026年5月時点で累計1,404件)から、定量的に試算できる。

2026年5月の編集視点

「成功率80%」という数字を、多くのチームは「まあ及第点」と読む。だが財務的に読み直すと、成功率80%は同じ成果に平均1.25回の試行が必要=25%のリトライ税という意味になる。成功率は品質管理表の数字ではなく、原価計算の係数として扱うべきだ。

リトライ税の計算式 — 期待試行回数は 1/p

各試行が独立で成功確率 p だと近似すると、1回成功させるまでの期待試行回数は 1/p(幾何分布の期待値)で表せる。これがリトライ税の核となる式だ。

成功率 p 期待試行回数 (1/p) 成功率91%基準のリトライ税 財務的な読み方
91%約1.10回基準(1.0x)ほぼ無税
80%約1.25回約1.14x+14%の追加トークン
66%約1.52回約1.38x+38%の追加トークン
50%約2.00回約1.82x呼び出しコストが約1.8倍
39%約2.56回約2.33x呼び出しコストが約2.3倍
20%約5.00回約4.55x呼び出しコストが約4.5倍

注目すべきは曲線の形だ。成功率が91%から80%へ落ちても税率は14%増にとどまるが、50%を切ったあたりから急激に立ち上がる。成功率20%のサービスは、91%のサービスと同じ成果を出すために約4.5倍のツール呼び出しを必要とする。これは「ちょっと不便」ではなく、原価が4倍以上違うという話だ。

⚠️ この式は下限である

1/p はあくまで「ツール呼び出し回数」の期待値だ。実際のリトライ税はこれより重い。各リトライは(1)エラーレスポンス全文のコンテキスト取り込み、(2)原因推論のためのLLMターン、(3)膨らんだ会話履歴を抱えた後続ターン、を伴う。後述の通り、リトライ税は呼び出し回数だけでなくトークン量・LLM呼び出し回数・実行時間の3軸で掛け算的に効く。

KanseiLink実測データ — 4つの切り替えで見る節約幅

KanseiLinkの audit_cost ツールは、エージェントのAPI支出を4階層(モデル選択・サービス代替・アーキテクチャ・インフラ)で分析し、最適化を提案する。2026年5月15日時点の分析(累計1,404件のアウトカム報告ベース)が示した「サービス代替」レイヤーの提案を見ると、リトライ税の実額がよく分かる。

現行サービス 成功率 推奨切替先 切替後 成功率 推定トークン削減
LINE WORKS20%Slack MCP91%約71%
Talentio35%KING OF TIME66%約31%
SmartHR39%KING OF TIME66%約27%
Chatwork MCP66%Slack MCP91%約25%

最も極端なのが LINE WORKS → Slack MCP だ。成功率20%から91%へ。get_insights でLINE WORKSを引くと、5件のアウトカム報告のうち成功は1件、残りは search_miss(意図したリソースに辿り着けない)で占められている。一方Slack MCPは113件の報告で成功率91%、主なエラーは軽微な api_error が9件。この差が、同じ「メッセージを送る」というタスクで約71%のトークン削減として表れる。

注意したいのは SmartHR のケースだ。SmartHRは日本のHR SaaSの市場リーダーだが、KanseiLink実測では成功率39%(92件の報告)。common_errors の内訳は api_error 36件、auth_expired 10件、search_miss 7件。市場での知名度と、エージェントから見た「叩きやすさ」は別物であり、リトライ税は知名度を考慮してくれない。

リトライ税の実額イメージ

4.5x
成功率20%サービスの呼び出しコスト(91%基準)
71%
LINE WORKS→Slack切替の推定トークン削減
2.3x
成功率39%(SmartHR実測)の呼び出しコスト

リトライ税は「掛け算」で効く

前述の通り、リトライ税は「ツール呼び出しが N 回に増える」だけでは終わらない。失敗1回が連鎖的に複数のコストを生む。

だからこそ、リトライ税対策は「成功率を上げる」だけでなく「失敗1回あたりの単価を下げる」両面で考える価値がある。後者で最も効くのがプロンプトキャッシングだ。

プロンプトキャッシングはリトライ税の「税率」を下げる

Claude APIのプロンプトキャッシングでは、キャッシュ読み取りが基本入力単価の0.1倍(90%引き)になる(2026年5月時点。5分キャッシュの書き込みは1.25倍、1時間キャッシュは2倍)。具体的には、Claude Sonnet 4.6 のキャッシュ読み取りは $3/100万トークンが $0.30 に、Claude Opus 4.7 は $5 が $0.50 になる。

リトライのたびに再送されるのは、システムプロンプト・ツール定義・会話履歴の固定部分だ。これらをキャッシュに載せておけば、リトライが発生しても入力トークンの大半が90%引きで処理される。リトライ税そのものを消すわけではないが、税率を大きく下げる。リトライが避けられないワークロードほど、キャッシュの効果は大きい。

# Claude API: 固定部分をキャッシュに載せる(疑似コード)
messages.create(
  model="claude-sonnet-4-6",
  system=[
    { "type": "text", "text": SYSTEM_PROMPT,
      "cache_control": {"type": "ephemeral"} }   # ← リトライ時もキャッシュ読み取り(0.1x)
  ],
  tools=[ ...TOOL_DEFS, {"cache_control": {"type": "ephemeral"}} ],
  messages=conversation,
)

リトライ税を下げる4階層

KanseiLinkの audit_cost の4階層フレームに沿って、リトライ税の削減策を効果の大きい順に並べる。

✅ 実務の優先順位

まず get_insights で現行サービスの成功率を確認する。50%を切っているなら、それは「不便」ではなく「原価が約1.8倍以上」のサインだ。audit_cost のサービス代替提案を見て、タスクが許す範囲で高成功率サービスへ。同時にプロンプトキャッシングを有効化し、避けられないリトライの税率を下げる。この2手だけで、多くのエージェントは目に見えてトークン消費が落ちる。

あなたのエージェントは、いくらリトライ税を払っていますか?

KanseiLinkは225+の日本SaaSについて、成功率・レイテンシ・エラー類型・既知ワークアラウンドの実測データをMCP経由で提供。リトライ税の発生源を、サービス単位で特定できます。

コスト監査を相談する

FAQ

「リトライ税」とは何ですか?

MCPサーバーやAPIの成功率が低いことで追加発生するトークン消費・レイテンシ・LLM呼び出しコストの総称です。1回成功させる期待試行回数は成功率pに対して 1/p で近似でき、成功率20%なら平均5回、91%なら平均1.1回。成功率20%のサービスは91%の約4.5倍のトークンを同じ成果のために消費します。

成功率が低いと、なぜコストが「掛け算」で増えるのですか?

失敗1回のコストはツール呼び出しの入力トークンだけではないからです。失敗するとエージェントはエラー全文の取り込み・原因推論・リトライ判断という追加LLMターンを回し、会話履歴が伸びるほど後続ターンの入力トークンも増えます。トークン・LLM呼び出し回数・実行時間の3軸が同時に悪化します。

プロンプトキャッシングはリトライ税にどう効きますか?

リトライ税の「税率」を下げます。Claude APIのキャッシュ読み取りは基本入力単価の0.1倍(90%引き)です(2026年5月時点)。リトライ時に再送されるシステムプロンプトやツール定義をキャッシュに載せておけば、リトライが発生しても入力トークンの大半が90%引きで処理されます。

リトライ税を下げる一番効果的な方法は?

成功率の高い代替サービスへの切り替えです。成功率20%→91%のような桁違いの改善はサービス代替でしか得られず、トークン削減効果が最大になります。次点はプロンプトキャッシング、一括API/バッチAPI、既知ワークアラウンドの事前組み込みです。

成功率はどこで確認できますか?

KanseiLink MCPの get_insights で、対象サービスの success_rate・avg_latency_ms・common_errors(既知ワークアラウンド付き)・confidence_score を取得できます。search_services でも各サービスの success_rate が返ります。接続コマンドは npx -y @kansei-link/mcp-server です。

データ開示・免責事項

本記事の成功率・レイテンシ・トークン削減率は、KanseiLinkがエージェントから収集した実測アウトカム報告(2026年5月15日時点で累計1,404件)を集計したものです。サービス別成功率は get_insights 実測値: LINE WORKS 20%(5件)、Slack MCP 91%(113件)、SmartHR 39%(92件)、Backlog 90%(91件)。切り替え時のトークン削減率は audit_cost ツールの推定値(confidence: medium)で、実際のワークロード・タスク構成により変動します。「期待試行回数 1/p」は各試行が独立で成功確率一定という近似に基づく下限値です。プロンプトキャッシングの料金(キャッシュ読み取り0.1倍、5分書き込み1.25倍、1時間書き込み2倍)は2026年5月時点のClaude API公式ドキュメントに基づきます(platform.claude.com/docs/en/build-with-claude/prompt-caching)。AWS App Runnerの新規受付停止(2026年4月30日)・メンテナンスモード移行はAWS公式アナウンスに基づきます。サービスの成功率・料金は変動するため、本番判断前に各 get_insights および各社公式の最新情報をご確認ください。