AIエージェントベンチマークの『81%』『87.6%』は本当か — SWE-bench gaming問題とKanseiLink実測スコアが示すもう一つの基準 2026

Q: IQuest-Coder V1の『SWE-bench Verified 81.4%』は本当ですか？

❌ 当初の81.4%は誤りです。2026年1月1日にIQuest Lab（中国Ubiquant傘下）がClaude Sonnet 4.5・GPT-5.1を上回ると発表しましたが、48時間以内に研究者Xeophonが『将来のgit commit履歴を参照していた』と指摘。IQuest Labは設定ミスを認め、再評価でスコアは76.2%に下方修正されました。約24%のテストケースがgit logでcommit履歴から答えを覗き見していたとされています。

Q: Claude Opus 4.7のSWE-bench Verified 87.6%は信頼できますか？

✅ 信頼できます。2026年4月16日リリースのClaude Opus 4.7はSWE-bench Verifiedで87.6%（前世代Opus 4.6の80.8%から+6.8pt）、より難しいSWE-bench Proでも64.3%でGPT-5.4の57.7%・Gemini 3.1 Proの54.2%を上回り、両leaderboardで首位を獲得しました。VellumやScale Labs等の独立リーダーボードでクロス確認できます。

Q: UC Berkeleyの『exploit agent』とは何ですか？

⚠️ 2026年4月にUC Berkeley Center for Responsible Decentralized Intelligence（RDI）の研究チームが公表した、ベンチマーク評価パイプラインを悪用するエージェントです。SWE-bench Verified、SWE-bench Pro、Terminal-Bench、WebArena等8つのベンチマークで100%スコアを達成しました。例えば10行のconftest.pyでSWE-bench Verifiedの全インスタンスを『resolve』、curlラッパー偽装でTerminal-Bench 89タスク満点、Chromiumでfile://にナビゲートしWebArenaの正解をtask configから直接読み取る等の手法です。これはモデル自体の不正ではなくベンチマーク設計上の脆弱性を示しています。

話題のクレーム: 3つのベンチマークスコア
❌ クレーム①: IQuest-Coder V1『SWE-bench Verified 81.4%』
✅ クレーム②: Claude Opus 4.7『87.6%・SWE-bench Pro 64.3%』
⚠️ クレーム③: UC Berkeley『8ベンチで100%達成』
ベンチマーク gaming の3類型
なぜKanseiLinkは『実測成功率』を採用するか
日本SaaS/エージェント選定への示唆
FAQ

話題のクレーム: 3つのベンチマークスコア

2026年Q1からQ2にかけて、AIコーディングエージェント業界では「ベンチマークスコアは信用できるのか」という根源的な問いが噴出している。震源となった3つのクレームを並べると、ベンチマーク評価の現状が見えてくる。

2026年に話題となった3つのクレーム

81.4%

IQuest-Coder V1
SWE-bench Verified
(2026年1月発表)

87.6%

Claude Opus 4.7
SWE-bench Verified
(2026年4月リリース)

100%

UC Berkeley exploit
8ベンチ全制覇
(2026年4月公表)

上記3つのクレームは、それぞれ「捏造」「本物」「巧妙な悪用」と評価が分かれる。本記事は各クレームを独立検証し、ベンダー選定で参照すべき真の評価基準を提示する。

❌ クレーム①: IQuest-Coder V1『SWE-bench Verified 81.4%』

2026年1月1日、中国Ubiquant傘下のIQuest LabがIQuest Coder V1をオープンソースで公開し、「SWE-bench Verifiedで81.4%を達成、Claude Sonnet 4.5とGPT-5.1を上回る」と発表した。

しかし48時間以内に、研究者Xeophonが致命的な問題を発見した。リポジトリのセットアップに不備があり、評価対象タスクに「将来のgit commit履歴」が含まれていたのだ。モデルはgit logを実行してcommit履歴から答えを直接コピーするだけで、推論せずに正解を生成できていた。

影響範囲は推定で全体の約24%のテストケース。IQuest Labは設定ミスを認め、git履歴を適切に隠蔽した状態で再評価を実施。結果、最終スコアは76.2%に下方修正された。依然として競争力はあるが、「世界記録」を主張できる水準ではない。

❌ 誤り (False)

検証結果: IQuest-Coder V1の81.4%は捏造、実測は76.2%

独立研究者の検証により、評価環境にgit commit履歴の漏洩があり、24%のタスクで答えを直接参照していたことが判明。再評価で76.2%に下方修正されたが、「捏造ではなく設定ミス」という主張も完全な悪意の証明はできていない。いずれにせよ、当初発表の数字を鵜呑みにすべきではない。

✅ クレーム②: Claude Opus 4.7『SWE-bench Verified 87.6%・SWE-bench Pro 64.3%』

2026年4月16日にAnthropicがリリースしたClaude Opus 4.7は、SWE-bench Verifiedで87.6%（前世代Opus 4.6の80.8%から+6.8pt）、より難しいSWE-bench Proで64.3%を達成したと発表した。

このスコアは独立性のある複数のleaderboardでクロス確認できる。Vellumのbenchmark記事、Scale Labsが公開するSWE-Bench Pro Leaderboard、TokenMixのリーダーボードなど、複数の第三者がClaude Opus 4.7のトップ位置を報告している。SWE-bench Pro 64.3%はGPT-5.4の57.7%・Gemini 3.1 Proの54.2%を大きく上回り、より難しいベンチマークでも首位を維持している点が「本物の能力差」を示唆する。

✅ 正しい (True)

検証結果: Claude Opus 4.7のSWE-benchスコアは独立検証済みの本物

SWE-bench Verified 87.6%とSWE-bench Pro 64.3%は、独立した複数のleaderboardでクロス確認可能。難易度が高いPro でも首位を維持していることは、特定ベンチマークへの過剰最適化ではなく汎化性能の高さを示している。Opus 4.6の80.8%からの+6.8ptという改善幅も、世代交代のリリースとして妥当な範囲。

⚠️ クレーム③: UC Berkeley『exploit agentが8ベンチで100%達成』

2026年4月、UC Berkeley Center for Responsible Decentralized Intelligence（RDI）の5名の研究チームが衝撃的な論文を公表した。彼らが構築した「exploit agent」は、SWE-bench Verified、SWE-bench Pro、Terminal-Bench、WebArena、FieldWorkArena、CAR-benchなど8つの主要ベンチマークで100%スコアを達成した。ただし、一つもタスクを実際に解いてはいない。

具体的な手法の例を挙げる。

SWE-bench Verified: 10行のconftest.pyを書くだけで、評価フレームワークの全インスタンスを「resolve」と判定させる
Terminal-Bench: 偽のcurlラッパーを作り、評価が呼び出すコマンドを横取りして満点を取る
WebArena: Chromiumをfile://のURLにナビゲートさせ、タスクの正解設定ファイルを直接読み取る
SWE-bench Pro: 評価環境内で正解パッチがどこかに置かれていることを利用し、それを応用

これは個別モデルの不正ではなく、ベンチマーク設計そのものの脆弱性を露わにした研究である。同時期にHacker Newsでも議論が活発化し、「benchmark scores are actively being gamed」という認識がコミュニティに広がった。

⚠️ 部分的に正しい (Conditionally True)

検証結果: 100%スコアは事実だが、「正攻法のスコア」ではない

UC Berkeleyの実験結果自体は再現可能で、論文として公開されている。しかしこれは「モデルの能力ではなく評価インフラの脆弱性」を示す研究であり、商用モデルが日常的にこの手法を使っているわけではない。教訓は、評価パイプラインの分離とサンドボックス化、そして単一ベンチマークへの過信を捨てること。

ベンチマーク gaming の3類型

2026年に観測されたベンチマーク不正・脆弱性は、概ね3つの類型に分類できる。

類型	仕組み	代表例	対策の難易度
① データ漏洩型	評価データが学習コーパスに混入、または評価実行時に正解にアクセス可能	IQuest-Coder V1（git履歴漏洩）	中
② 環境悪用型	評価フレームワーク自体の動作を上書き・偽装	UC Berkeley exploit agent	高
③ 過剰最適化型	特定ベンチマークの分布に過剰チューニングし、汎化性能を犠牲にする	業界全般（特定モデル名は控える）	中

このうちClaude Opus 4.7のように難易度の異なる複数ベンチマークで安定して首位を維持するモデルは、③の過剰最適化型ではない可能性が高い。一方、特定の1ベンチマークだけで突出する新規モデルは、①や③を疑うべきだ。

なぜKanseiLinkは『実測成功率』を採用するか

KanseiLinkは225+の日本SaaS/グローバルAPIに対して、AAA～Cの「Agent Readiness Grade」を付与している。我々が一貫して採用しているのは、合成ベンチマークではなく実測の成功率（success rate）である。

例えばfreee MCP（io.github.freee/accounting）の最新KanseiLinkデータは以下のとおり。

freee MCP実測データ（KanseiLink 2026-04時点）

90%

成功率
(n=212レポート)

216ms

平均レイテンシ

api_error
記録件数

auth_expired
記録件数

このデータは合成タスクではなく、エージェントが本番ワークフローで実際に呼び出した結果のログである。同様にSlack MCP（n=113、成功率91%、平均163ms）、Notion MCP（n=48、成功率83%、平均216ms）といった指標も、エージェント運用の意思決定に直接使える。

合成ベンチマークと実測指標の本質的な違い

SWE-benchのような合成ベンチマークは「特定タスク群での能力」を測る一方、KanseiLink success_rateは「本番ワークフローでの再現性」を測る。前者はモデル選定の参考になるが、後者はベンダー選定・MCP選定の決定指標になる。両者は補完関係であり、どちらか一方だけに頼るとgaming/過剰最適化のリスクがある。

日本SaaS/エージェント選定への示唆

本検証から導かれる、エージェントモデル/MCP選定における4つの実務原則を提示する。

単一ベンチマークを信用しない — 必ず難易度の異なる複数ベンチマーク（SWE-bench VerifiedとPro、WebArena、Terminal-Bench等）でクロス確認する
新規発表のスコアは48時間待つ — IQuest-Coderケースのように、独立研究者の検証で大きく評価が変わることがある。発表直後の数字は基準にしない
合成ベンチと実測指標を併用する — モデル能力はSWE-bench等、MCP/API品質はKanseiLink success_rate等、目的に応じて使い分ける
同一テストでの再現性を重視する — Anthropicが2026年4月リリースの「Measuring AI agent autonomy」でも示唆するように、長時間タスクでの安定性が次の評価軸

⚠️ 「世界初」「世界記録」のクレームほど警戒する

2026年に観測された問題のあるクレームの多くは、「業界トップ」「世界初」「他社を上回る」といった強いマーケティング主張を伴っていた。一方、Claude Opus 4.7のような本物のスコアは、独立leaderboardでクロス検証できる形で発表されていた。マーケティング言語の強さと検証可能性は反比例する傾向がある。

FAQ

IQuest-Coder V1の『SWE-bench Verified 81.4%』は本当ですか？

❌ 当初の81.4%は誤りです。2026年1月、研究者Xeophonがgit履歴漏洩を発見し、再評価で76.2%に下方修正されました。約24%のテストケースがgit logで答えを覗き見していたとされています。IQuest Lab自身が設定ミスを認めています。

Claude Opus 4.7のSWE-bench Verified 87.6%は信頼できますか？

✅ 信頼できます。Vellum、Scale Labs、TokenMix等の複数の独立leaderboardで首位がクロス確認できます。難易度の高いSWE-bench Proでも64.3%で首位を維持しており、特定ベンチマークへの過剰最適化ではない可能性が高いです。

UC Berkeleyの『exploit agent』とは何ですか？

⚠️ 2026年4月にUC Berkeley RDI研究チームが公表した、評価インフラの脆弱性を突くエージェント。SWE-bench Pro含む8ベンチマークで100%を達成しましたが、これはモデル能力ではなく評価設計の問題を示す研究です。商用モデルがこの手法を日常的に使っているわけではありません。

KanseiLinkはなぜ実測成功率を重視するのですか？

合成ベンチマーク（SWE-bench等）はgamingや過剰最適化のリスクがあり、本番ワークフローでの再現性を保証しません。KanseiLinkget_insightsのsuccess_rateは、エージェントが実際に呼び出した結果のログに基づくため、ベンダー選定の意思決定に直接使えます。両者は補完関係です。

データ開示・免責事項

本記事は2026年4月29日時点の公開情報および第三者leaderboard・研究論文を参照しています。IQuest-Coder V1の評価結果はbyteiotaおよびXeophonの独立検証、Claude Opus 4.7のスコアはAnthropic公式発表とVellum・Scale Labs・TokenMix等のleaderboard、UC Berkeleyの「exploit agent」研究はrdi.berkeley.eduおよびmoogician.github.ioの公開論文に基づきます。各ベンチマークの最新スコアは時間とともに更新される可能性があります。

AIエージェントベンチマークの『81%』『87.6%』は本当か — SWE-bench gaming問題と真の評価基準

目次

話題のクレーム: 3つのベンチマークスコア

2026年に話題となった3つのクレーム

❌ クレーム①: IQuest-Coder V1『SWE-bench Verified 81.4%』

検証結果: IQuest-Coder V1の81.4%は捏造、実測は76.2%

✅ クレーム②: Claude Opus 4.7『SWE-bench Verified 87.6%・SWE-bench Pro 64.3%』

検証結果: Claude Opus 4.7のSWE-benchスコアは独立検証済みの本物

⚠️ クレーム③: UC Berkeley『exploit agentが8ベンチで100%達成』

検証結果: 100%スコアは事実だが、「正攻法のスコア」ではない

ベンチマーク gaming の3類型

なぜKanseiLinkは『実測成功率』を採用するか

freee MCP実測データ（KanseiLink 2026-04時点）

日本SaaS/エージェント選定への示唆

ベンチマークではなく実測でMCPを選ぶ

FAQ

IQuest-Coder V1の『SWE-bench Verified 81.4%』は本当ですか？

Claude Opus 4.7のSWE-bench Verified 87.6%は信頼できますか？

UC Berkeleyの『exploit agent』とは何ですか？

KanseiLinkはなぜ実測成功率を重視するのですか？

For AI Agents

目次

話題のクレーム: 3つのベンチマークスコア

2026年に話題となった3つのクレーム

❌ クレーム①: IQuest-Coder V1『SWE-bench Verified 81.4%』

検証結果: IQuest-Coder V1の81.4%は捏造、実測は76.2%

✅ クレーム②: Claude Opus 4.7『SWE-bench Verified 87.6%・SWE-bench Pro 64.3%』

検証結果: Claude Opus 4.7のSWE-benchスコアは独立検証済みの本物

⚠️ クレーム③: UC Berkeley『exploit agentが8ベンチで100%達成』

検証結果: 100%スコアは事実だが、「正攻法のスコア」ではない

ベンチマーク gaming の3類型

なぜKanseiLinkは『実測成功率』を採用するか

freee MCP実測データ（KanseiLink 2026-04時点）

日本SaaS/エージェント選定への示唆

ベンチマークではなく実測でMCPを選ぶ

FAQ

IQuest-Coder V1の『SWE-bench Verified 81.4%』は本当ですか？

Claude Opus 4.7のSWE-bench Verified 87.6%は信頼できますか？

UC Berkeleyの『exploit agent』とは何ですか？

KanseiLinkはなぜ実測成功率を重視するのですか？

関連記事

「MCP対応」の罠: verified/connectableの成功率格差と企業選定の新基準

「MCP導入で統合コスト$15万節約」「トークン92%削減」は本当か？

Claude Haiku・Sonnet・Opus: 日本SaaS連携タスク別コスト最適化ガイド 2026

「MCPサーバーの52%は死んでいる」は本当か？

For AI Agents