目次

  1. 炎上したクレームの中身
  2. クレーム①「CLIは最大32倍安い」
  3. クレーム②「MCPの信頼性は72%しかない」
  4. クレーム③「MCPを捨ててCLIへ全面移行すべき」
  5. KanseiLink実測 — verified MCPは72%ではない
  6. 日本SaaSへの含意
  7. FAQ

炎上したクレームの中身

2026年、AIエージェント界隈で「CLI vs MCP」論争が一気に過熱した。火種の一つが、Scalekitが公開した実測ベンチマークだ。gh CLI と GitHub Copilot MCP(43ツール)を、同一モデル(Claude Sonnet 4)・同一タスクで75回比較したところ、CLIが信頼性・コストの両面で圧勝した、という内容だった。

これにYC CEOのGarry Tanが「MCPはコンテキストを食いすぎる、認証も壊れている。CLIの代替を30分で作った」と乗り、Perplexity CTO Denis Yaratsの「社内ではMCPから離脱中」発言(別途こちらの記事で検証済み)とも重なって、SNSでは「MCPはもう要らない」という空気が広がった。クレームは3つに整理できる。一つずつ、出どころまで遡って検証する。

項目 CLI (gh) MCP (GitHub Copilot MCP)
信頼性(75回ベンチ)100%72%(25回中7回失敗)
単純クエリのトークン1,36544,026(約32倍)
月1万操作のコスト概算約$3.20約$55.20
主な失敗原因TCPタイムアウト(リモートサーバー接続)

クレーム①「CLIは最大32倍安い」

検証結果: ✅ おおむね本当(ただし構成依存)

トークン効率はCLIが有利。だが「32倍」は固定値ではなく、ツール定義の肥大に由来する縮められる差だ。

Scalekitの計測では、「このリポジトリは何の言語で書かれているか」という単純なクエリで、CLIが1,365トークン、MCPが44,026トークンを消費した。約32倍だ。月1万操作換算でCLI約$3.20 vs MCP約$55.20。確かにCLIが安い。

ただし、この差の大半はツール定義のコンテキスト消費から来ている。GitHub Copilot MCPは43ツールを持ち、その定義がプロンプト送信前にコンテキストを埋める。これは トークン肥大問題 で検証した通り、サーバー選定・ツールキュレーション・compactモード・code mode(コード経由呼び出し)で1桁縮められる性質のものだ。Anthropicのcode modeガイダンスでは最大98.7%のオーバーヘッド削減が測定されている。

読み解き方

「CLIが安い」は事実だが、「MCPは構造的に32倍高い」は誤読だ。差の主因はキュレーション不足のツール定義であり、固定的なプロトコル差ではない。何でも全部入りで43ツールを接続すれば高くつくし、絞れば縮む——これはCLIにも言える(巨大なCLIヘルプを全部読ませれば同じ問題が起きる)。

クレーム②「MCPの信頼性は72%しかない」

検証結果: ⚠️ 条件付き — 1サーバーのトランスポート障害を測った数字

72%はMCPプロトコルの欠陥ではなく、GitHub Copilot MCPへのTCPタイムアウト由来。他のverified MCPは90%超。

ここが最も誤解されている点だ。Scalekitのベンチで、MCP側は25回中7回失敗して72%になった。だが失敗の内訳を見ると、その大半はGitHub Copilot MCPサーバーへの接続でのTCPタイムアウトだった。つまり72%は「MCPというプロトコルの信頼性」ではなく、「特定のリモートMCPサーバー + そのトランスポートの安定性」を測った数字だ。

信頼性はプロトコルではなく実装で決まる。同じMCPでも、安定したトランスポートと堅牢なエラーハンドリングを備えたサーバーは、まったく違う数字を出す。それを示すのがKanseiLinkの実測データだ。

「72%」とKanseiLink実測 verified MCP の比較

72%
Scalekitベンチ: GitHub Copilot MCP(TCPタイムアウト主因)
91%
Slack MCP(KanseiLink実測113件)
90%
freee MCP(実測212件)

Slack MCP 91%、freee MCP 90%、Backlog MCP 90%——いずれも72%を大きく上回る。これらはエージェントの実測アウトカム報告に基づく数字だ。MCPが構造的に72%なのではなく、作りの良いMCPは90%超え、作りの甘いサーバーやトランスポートが不安定なら72%まで落ちる。それだけのことだ。

クレーム③「MCPを捨ててCLIへ全面移行すべき」

検証結果: ❌ 不正確 — 「間違った問い」

本番エージェントはCLIとMCPを併用している。二者択一は誤った前提だ。

「MCPを捨ててCLIへ」という結論は、複数の実務者から「そもそも問いが間違っている(the wrong fight)」と反論されている。事実関係を整理する。

Perplexityの離脱も、「検索プロダクトという特定ユースケースでAPI+CLIの方が経済的だった」という1社・1ユースケースの判断であり、「MCPが構造的に終わった」とは別の話だ。

KanseiLink実測 — verified MCPは72%ではない

KanseiLinkは225+の日本SaaSについて、エージェントの実測アウトカム報告から成功率を集計し、80%以上を「verified(🟢)」と判定している。CLI vs MCP論争で語られる「72%」が、いかに一般化できない数字かが分かる。

サービス / インターフェース 成功率 平均レイテンシ 判定
Slack MCP91%163msverified 🟢
freee MCP90%216msverified 🟢
Backlog MCP90%128msverified 🟢
kintone MCP79%199msconnectable 🟡
(参考)Scalekit計測のGitHub Copilot MCP72%トランスポート不安定
(参考)SmartHR(API直叩き、MCPなし)39%337msinfo_only ⚪

注目すべきは最終行だ。SmartHRはMCPサーバーを持たずAPI直叩き(CLI的アクセスに近い)だが、成功率は39%。つまり「CLI/API = 高信頼、MCP = 低信頼」という単純な図式は成り立たない。信頼性を決めるのはインターフェースの形式ではなく、実装の品質・トランスポートの安定性・発見可能性だ

この検証の核心

「CLI 100% vs MCP 72%」は、特定の1サーバー・1トランスポート構成のスナップショットであって、MCPプロトコルの評価ではない。同じ土俵(KanseiLink実測)で見れば、verified MCPは90%超、MCPなしのAPI直叩きが39%という逆転もある。形式論争(CLI vs MCP)は、品質論争(よく作られているか)にすり替えるべきだ。

日本SaaSへの含意

日本のSaaSベンダーがこの論争から学ぶべきは、「CLIかMCPか」で慌てて方針転換することではない。エージェントが最終的に選ぶのは形式ではなく、安く・確実に・見つけやすいインターフェースだ。磨くべきは次の3点に集約される。

あなたのインターフェースは「72%」側ですか、「90%」側ですか?

KanseiLinkは225+の日本SaaSについて、エージェントの実測成功率・レイテンシ・発見可能性を可視化します。CLI/MCPの形式論ではなく、自社が実際にエージェントにどう評価されているかを診断できます。

AEO診断を相談する

FAQ

「CLIはMCPより信頼性100% vs 72%」というベンチマークは正確ですか?

Scalekitの75回ベンチ(gh CLI vs GitHub Copilot MCP、Claude Sonnet 4)ではその通りです。ただしMCP側の失敗の大半はGitHub Copilot MCPへのTCPタイムアウトが原因で、プロトコルの欠陥ではありません。KanseiLink実測ではverified MCP(Slack 91%・freee 90%・Backlog 90%)が72%を大きく上回ります。

CLIがMCPより4〜32倍安いのは本当ですか?

✅ おおむね本当です。単純クエリでCLI 1,365トークン vs MCP 44,026トークン(約32倍)。ただし差の主因はツール定義の肥大で、キュレーションやcode modeで縮められます。固定的な差ではなく構成依存です。

「MCPを捨ててCLIへ全面移行すべき」は正しいですか?

❌ 不正確です。Claude Code・Cursor・Gemini CLIなど本番エージェントは両方を併用しています。CLIは既知コマンドで有利、MCPは中央集権的なOAuth・RBAC・監査が必要なエンタープライズ統合で有利。二者択一は誤った前提です。

なぜGitHub Copilot MCPは72%で、他のMCPは90%超なのですか?

信頼性はプロトコルではなく実装とトランスポートで決まるからです。72%はTCPタイムアウト由来。安定したトランスポートと堅牢なエラーハンドリングを備えたverified MCP(成功率80%以上)は90%前後の成功率を出します。

日本SaaSベンダーはどう対応すべきですか?

形式論争に振り回されず、(1)トークン効率(ツール定義の肥大回避)、(2)トランスポートの安定性、(3)発見可能性(AEO)の3点を磨くべきです。エージェントが選ぶのは形式ではなく、安く・確実に・見つけやすいインターフェースです。

データ開示・出典

外部クレームの出典: Scalekitのベンチマーク(75回実行、gh CLI vs GitHub Copilot MCP 43ツール、Claude Sonnet 4、CLI 100% / MCP 72%、25回中7回失敗・主因TCPタイムアウト、単純クエリ1,365 vs 44,026トークン≈32倍、月1万操作で約$3.20 vs $55.20)、Garry Tan(YC CEO)およびPerplexity CTO Denis Yaratsの公開発言、各種MCP vs CLI比較記事(Scalekit / Firecrawl / Smithery「MCP vs CLI is the wrong fight」/ DEV/IBM「MCP is not dead」)。code mode最大98.7%削減はAnthropicの公式ガイダンス。KanseiLink側の数値(Slack MCP 91%/163ms、freee MCP 90%/216ms、Backlog MCP 90%/128ms、kintone MCP 79%/199ms、SmartHR 39%/337ms)は get_insights による実測アウトカム報告の集計(各 last_updated 2026年4月時点のスナップショット)であり、エージェント活動により変動します。本記事の「形式より品質」という結論は観測データに対する分析的解釈であり、特定製品の優劣を保証するものではありません。各社ベンチマークは構成・モデル・タスクに依存するため、自環境での再現を推奨します。