CLIがMCPより4〜32倍安いというのは本当ですか？

✅ おおむね本当です。Scalekitの計測では、単純なクエリ(『このリポジトリは何の言語か』)でCLIが1,365トークン、MCPが44,026トークンと約32倍の差が出ました。月1万操作換算でCLI約$3.20 vs MCP約$55.20です。ただしこの差の主因はツール定義のコンテキスト消費であり、ツールのキュレーション・compactモード・code mode(コード経由呼び出し)などで大幅に縮められます。トークン効率はCLIが有利なのは事実ですが、固定的な『32倍』ではなく構成依存です。

なぜGitHub Copilot MCPは72%だったのに、他のverified MCPは安定して動くのですか？

信頼性はプロトコルではなく実装とトランスポートで決まるからです。Scalekitの72%はリモートMCPサーバーへのTCPタイムアウトに起因しており、ネットワーク・サーバー側の安定性の問題でした。一方KanseiLinkがverifiedと判定するMCPサーバー(公式MCP提供＋KanseiLinkのMCPハンドシェイク検証済み)は、安定したトランスポートと堅牢なエラーハンドリングを備えています(実測成功率は蓄積中)。同じMCPでも、作りの良し悪しで信頼性は大きく分かれます。

日本SaaSベンダーはこの論争にどう対応すべきですか？

『CLIかMCPか』の二者択一に振り回されず、(1)提供するインターフェースのトークン効率(ツール定義の肥大を避ける、compact対応)、(2)トランスポートの安定性(タイムアウト・リトライ設計)、(3)発見可能性(エージェントの意図キーワードでヒットするか)の3点を磨くべきです。エージェントが選ぶのはCLI/MCPという形式ではなく、安く・確実に・見つけやすいインターフェースです。KanseiLinkのAEO評価はこの3軸を可視化します。

「CLIはMCPより信頼性100% vs 72%・最大32倍安い、MCPを捨てろ」は本当か？ 2026

Q: 「CLIはMCPより信頼性100% vs 72%」というベンチマークは正確ですか？

Scalekitが公開したベンチマーク(75回実行、gh CLI vs GitHub Copilot MCP、同一モデルClaude Sonnet 4)では、CLIが100%、MCPが72%の信頼性でした。ただしMCP側の失敗7件(25回中)の大半はGitHub Copilot MCPサーバーへのTCPタイムアウトが原因です。つまり72%という数字はMCPプロトコルそのものの欠陥ではなく、特定のリモートサーバーとトランスポートの不安定さを測ったものです。KanseiLinkのグレード評価では、verified MCP群は高い信頼性を示しています(実測成功率は蓄積中)。

Q: 「MCPを捨ててCLIへ全面移行すべき」は正しいですか？

❌ 不正確です。これは『間違った問い』だというのが多くの実務者の結論です。Claude Code・Cursor・Gemini CLIなど本番エージェントはCLIとMCPを併用しています。CLIはモデルが既にパターンを知っているコマンド(git/ghなど)で有利、MCPは中央集権的なOAuth・RBAC・監査ログ・標準化された発見が必要なエンタープライズ統合で有利です。軸は『CLI vs MCP』ではなく、『そのタスクで、どちらが構造とコストのバランスが良いか』『サーバーがきちんと作られているか』です。

炎上したクレームの中身

2026年、AIエージェント界隈で「CLI vs MCP」論争が一気に過熱した。火種の一つが、Scalekitが公開した実測ベンチマークだ。gh CLI と GitHub Copilot MCP(43ツール)を、同一モデル(Claude Sonnet 4)・同一タスクで75回比較したところ、CLIが信頼性・コストの両面で圧勝した、という内容だった。

これにYC CEOのGarry Tanが「MCPはコンテキストを食いすぎる、認証も壊れている。CLIの代替を30分で作った」と乗り、Perplexity CTO Denis Yaratsの「社内ではMCPから離脱中」発言(別途こちらの記事で検証済み)とも重なって、SNSでは「MCPはもう要らない」という空気が広がった。クレームは3つに整理できる。一つずつ、出どころまで遡って検証する。

項目	CLI (gh)	MCP (GitHub Copilot MCP)
信頼性(75回ベンチ)	100%	72%(25回中7回失敗)
単純クエリのトークン	1,365	44,026(約32倍)
月1万操作のコスト概算	約$3.20	約$55.20
主な失敗原因	—	TCPタイムアウト(リモートサーバー接続)

クレーム①「CLIは最大32倍安い」

検証結果: ✅ おおむね本当(ただし構成依存)

トークン効率はCLIが有利。だが「32倍」は固定値ではなく、ツール定義の肥大に由来する縮められる差だ。

Scalekitの計測では、「このリポジトリは何の言語で書かれているか」という単純なクエリで、CLIが1,365トークン、MCPが44,026トークンを消費した。約32倍だ。月1万操作換算でCLI約$3.20 vs MCP約$55.20。確かにCLIが安い。

ただし、この差の大半はツール定義のコンテキスト消費から来ている。GitHub Copilot MCPは43ツールを持ち、その定義がプロンプト送信前にコンテキストを埋める。これはトークン肥大問題で検証した通り、サーバー選定・ツールキュレーション・compactモード・code mode(コード経由呼び出し)で1桁縮められる性質のものだ。Anthropicのcode modeガイダンスでは最大98.7%のオーバーヘッド削減が測定されている。

読み解き方

「CLIが安い」は事実だが、「MCPは構造的に32倍高い」は誤読だ。差の主因はキュレーション不足のツール定義であり、固定的なプロトコル差ではない。何でも全部入りで43ツールを接続すれば高くつくし、絞れば縮む——これはCLIにも言える(巨大なCLIヘルプを全部読ませれば同じ問題が起きる)。

クレーム②「MCPの信頼性は72%しかない」

検証結果: ⚠️ 条件付き — 1サーバーのトランスポート障害を測った数字

72%はMCPプロトコルの欠陥ではなく、GitHub Copilot MCPへのTCPタイムアウト由来。KanseiLinkのグレード評価では他のverified MCP群は高い信頼性を示す(実測成功率は蓄積中)。

ここが最も誤解されている点だ。Scalekitのベンチで、MCP側は25回中7回失敗して72%になった。だが失敗の内訳を見ると、その大半はGitHub Copilot MCPサーバーへの接続でのTCPタイムアウトだった。つまり72%は「MCPというプロトコルの信頼性」ではなく、「特定のリモートMCPサーバー + そのトランスポートの安定性」を測った数字だ。

信頼性はプロトコルではなく実装で決まる。同じMCPでも、安定したトランスポートと堅牢なエラーハンドリングを備えたサーバーは、まったく違う結果を出す。それを示すのがKanseiLinkのグレード評価だ(実測成功率は蓄積中)。

「72%」とKanseiLink評価 verified MCP の比較

72%

Scalekitベンチ: GitHub Copilot MCP(TCPタイムアウト主因)

観測中

Slack MCP(verified 🟢・報告113件)

観測中

freee MCP(verified 🟢・報告212件)

Slack MCP・freee MCP・Backlog MCP——KanseiLinkのグレード評価ではいずれもverified(🟢)で、高い信頼性を示す(実測成功率は蓄積中)。MCPが構造的に72%なのではなく、作りの良いMCPは安定して動き、作りの甘いサーバーやトランスポートが不安定なら72%まで落ちる。それだけのことだ。

クレーム③「MCPを捨ててCLIへ全面移行すべき」

検証結果: ❌ 不正確 — 「間違った問い」

本番エージェントはCLIとMCPを併用している。二者択一は誤った前提だ。

「MCPを捨ててCLIへ」という結論は、複数の実務者から「そもそも問いが間違っている(the wrong fight)」と反論されている。事実関係を整理する。

本番エージェントは両方使う — Claude Code、Cursor、Gemini CLIなど主要なエージェント環境は、CLIとMCPを併用している。どちらか一方を捨てる設計にはなっていない。
CLIが有利な領域 — モデルが既にパターンを熟知しているコマンド(git、gh、awsなど)。学習データに大量に存在するため、ツール定義を読ませなくても正しく使える。
MCPが有利な領域 — 中央集権的なOAuth、ロールベースアクセス制御(RBAC)、標準化された監査ログ・テレメトリ、動的なツール発見が必要なエンタープライズ統合。HTTPトランスポートのMCPはここで強い。
軸はCLI/MCPではない — 本当の判断軸は「そのタスクで、構造とコストのバランスが良いのはどちらか」「そのインターフェースはきちんと作られているか」だ。

Perplexityの離脱も、「検索プロダクトという特定ユースケースでAPI+CLIの方が経済的だった」という1社・1ユースケースの判断であり、「MCPが構造的に終わった」とは別の話だ。

KanseiLink評価 — 「72%」は一般化できない

KanseiLinkは225+の日本SaaSについて、公式MCPの提供とKanseiLinkのMCPハンドシェイク検証に基づき「verified(🟢)」を判定している(実測成功率は蓄積中)。CLI vs MCP論争で語られる「72%」が、いかに一般化できない数字かが分かる。

サービス / インターフェース	成功率	平均レイテンシ	判定
Slack MCP	観測中	163ms	verified 🟢
freee MCP	観測中	216ms	verified 🟢
Backlog MCP	観測中	128ms	verified 🟢
kintone MCP	観測中	199ms	connectable 🟡
(参考)Scalekit計測のGitHub Copilot MCP	72%	—	トランスポート不安定
(参考)SmartHR(API直叩き、MCPなし)	観測中	337ms	info_only ⚪

注目すべきは最終行だ。SmartHRはMCPサーバーを持たずAPI直叩き(CLI的アクセスに近い)だが、KanseiLinkの初期データではエージェント成功率が伸び悩む傾向が観測されている(観測中)。つまり「CLI/API = 高信頼、MCP = 低信頼」という単純な図式は成り立たない。信頼性を決めるのはインターフェースの形式ではなく、実装の品質・トランスポートの安定性・発見可能性だ。

この検証の核心

「CLI 100% vs MCP 72%」は、特定の1サーバー・1トランスポート構成のスナップショットであって、MCPプロトコルの評価ではない。同じ土俵(KanseiLinkのグレード評価)で見れば、verified MCP群が高い信頼性を示す一方、MCPなしのAPI直叩きで課題が観測されるという逆転もある(実測成功率は蓄積中)。形式論争(CLI vs MCP)は、品質論争(よく作られているか)にすり替えるべきだ。

日本SaaSへの含意

日本のSaaSベンダーがこの論争から学ぶべきは、「CLIかMCPか」で慌てて方針転換することではない。エージェントが最終的に選ぶのは形式ではなく、安く・確実に・見つけやすいインターフェースだ。磨くべきは次の3点に集約される。

トークン効率 — MCPを提供するなら、ツール定義を肥大させない。必要なツールに絞り、compactな記述を心がける。43ツール全部入りは避ける。
トランスポートの安定性 — 「72%」の正体はTCPタイムアウトだった。タイムアウト設計・リトライ・接続の堅牢性が成功率を直接左右する。
発見可能性(AEO) — そもそもエージェントの意図キーワードで見つからなければ、CLIだろうとMCPだろうと使われない。

FAQ

「CLIはMCPより信頼性100% vs 72%」というベンチマークは正確ですか？

Scalekitの75回ベンチ(gh CLI vs GitHub Copilot MCP、Claude Sonnet 4)ではその通りです。ただしMCP側の失敗の大半はGitHub Copilot MCPへのTCPタイムアウトが原因で、プロトコルの欠陥ではありません。KanseiLinkのグレード評価では、verified MCP群は高い信頼性を示します(実測成功率は蓄積中)。

CLIがMCPより4〜32倍安いのは本当ですか？

✅ おおむね本当です。単純クエリでCLI 1,365トークン vs MCP 44,026トークン(約32倍)。ただし差の主因はツール定義の肥大で、キュレーションやcode modeで縮められます。固定的な差ではなく構成依存です。

「MCPを捨ててCLIへ全面移行すべき」は正しいですか？

❌ 不正確です。Claude Code・Cursor・Gemini CLIなど本番エージェントは両方を併用しています。CLIは既知コマンドで有利、MCPは中央集権的なOAuth・RBAC・監査が必要なエンタープライズ統合で有利。二者択一は誤った前提です。

なぜGitHub Copilot MCPは72%で、他のverified MCPは安定して動くのですか？

信頼性はプロトコルではなく実装とトランスポートで決まるからです。72%はTCPタイムアウト由来。安定したトランスポートと堅牢なエラーハンドリングを備えたverified MCP(公式MCP提供＋ハンドシェイク検証済み)は高い信頼性を示します(実測成功率は蓄積中)。

日本SaaSベンダーはどう対応すべきですか？

形式論争に振り回されず、(1)トークン効率(ツール定義の肥大回避)、(2)トランスポートの安定性、(3)発見可能性(AEO)の3点を磨くべきです。エージェントが選ぶのは形式ではなく、安く・確実に・見つけやすいインターフェースです。

データ開示・出典

外部クレームの出典: Scalekitのベンチマーク(75回実行、gh CLI vs GitHub Copilot MCP 43ツール、Claude Sonnet 4、CLI 100% / MCP 72%、25回中7回失敗・主因TCPタイムアウト、単純クエリ1,365 vs 44,026トークン≈32倍、月1万操作で約$3.20 vs $55.20)、Garry Tan(YC CEO)およびPerplexity CTO Denis Yaratsの公開発言、各種MCP vs CLI比較記事(Scalekit / Firecrawl / Smithery「MCP vs CLI is the wrong fight」/ DEV/IBM「MCP is not dead」)。code mode最大98.7%削減はAnthropicの公式ガイダンス。KanseiLink側のレイテンシ値(Slack MCP 163ms、freee MCP 216ms、Backlog MCP 128ms、kintone MCP 199ms、SmartHR 337ms)は接続プローブによる実測値(各 last_updated 2026年4月時点のスナップショット)、verified等のグレードは公式MCP提供＋MCPハンドシェイク検証に基づくKanseiLinkの評価です(サービス別の実測成功率は蓄積中であり、本記事では断定しません)。いずれもエージェント活動・サービス側の変更により変動します。本記事の「形式より品質」という結論は観測データに対する分析的解釈であり、特定製品の優劣を保証するものではありません。各社ベンチマークは構成・モデル・タスクに依存するため、自環境での再現を推奨します。

「CLIはMCPより信頼性100% vs 72%・最大32倍安い、MCPを捨てろ」は本当か？ 2026

目次

炎上したクレームの中身

クレーム①「CLIは最大32倍安い」

クレーム②「MCPの信頼性は72%しかない」

「72%」とKanseiLink評価 verified MCP の比較

クレーム③「MCPを捨ててCLIへ全面移行すべき」

KanseiLink評価 — 「72%」は一般化できない

日本SaaSへの含意

あなたのインターフェースは「72%」側ですか、それとも安定して動く側ですか？

FAQ

「CLIはMCPより信頼性100% vs 72%」というベンチマークは正確ですか？

CLIがMCPより4〜32倍安いのは本当ですか？

「MCPを捨ててCLIへ全面移行すべき」は正しいですか？

なぜGitHub Copilot MCPは72%で、他のverified MCPは安定して動くのですか？

日本SaaSベンダーはどう対応すべきですか？

For AI Agents

目次

炎上したクレームの中身

クレーム①「CLIは最大32倍安い」

クレーム②「MCPの信頼性は72%しかない」

「72%」とKanseiLink評価 verified MCP の比較

クレーム③「MCPを捨ててCLIへ全面移行すべき」

KanseiLink評価 — 「72%」は一般化できない

日本SaaSへの含意

あなたのインターフェースは「72%」側ですか、それとも安定して動く側ですか？

FAQ

「CLIはMCPより信頼性100% vs 72%」というベンチマークは正確ですか？

CLIがMCPより4〜32倍安いのは本当ですか？

「MCPを捨ててCLIへ全面移行すべき」は正しいですか？

なぜGitHub Copilot MCPは72%で、他のverified MCPは安定して動くのですか？

日本SaaSベンダーはどう対応すべきですか？

関連記事

「MCPツール定義がコンテキストの40-50%を食う」「MCPはもう終わり」は本当か？— Perplexity離脱騒動を検証

「MCP対応」の罠: verified/connectableの成功率格差と企業選定の新基準

MCPとAPIの違い — エージェント時代の技術選択

同じOAuth 2.0でも結果は二極化する — MCP成功率を分けた3つの構造要因

For AI Agents