目次
話題のクレーム: 3つのベンチマークスコア
2026年Q1からQ2にかけて、AIコーディングエージェント業界では「ベンチマークスコアは信用できるのか」という根源的な問いが噴出している。震源となった3つのクレームを並べると、ベンチマーク評価の現状が見えてくる。
2026年に話題となった3つのクレーム
SWE-bench Verified
(2026年1月発表)
SWE-bench Verified
(2026年4月リリース)
8ベンチ全制覇
(2026年4月公表)
上記3つのクレームは、それぞれ「捏造」「本物」「巧妙な悪用」と評価が分かれる。本記事は各クレームを独立検証し、ベンダー選定で参照すべき真の評価基準を提示する。
❌ クレーム①: IQuest-Coder V1『SWE-bench Verified 81.4%』
2026年1月1日、中国Ubiquant傘下のIQuest LabがIQuest Coder V1をオープンソースで公開し、「SWE-bench Verifiedで81.4%を達成、Claude Sonnet 4.5とGPT-5.1を上回る」と発表した。
しかし48時間以内に、研究者Xeophonが致命的な問題を発見した。リポジトリのセットアップに不備があり、評価対象タスクに「将来のgit commit履歴」が含まれていたのだ。モデルはgit logを実行してcommit履歴から答えを直接コピーするだけで、推論せずに正解を生成できていた。
影響範囲は推定で全体の約24%のテストケース。IQuest Labは設定ミスを認め、git履歴を適切に隠蔽した状態で再評価を実施。結果、最終スコアは76.2%に下方修正された。依然として競争力はあるが、「世界記録」を主張できる水準ではない。
検証結果: IQuest-Coder V1の81.4%は捏造、実測は76.2%
独立研究者の検証により、評価環境にgit commit履歴の漏洩があり、24%のタスクで答えを直接参照していたことが判明。再評価で76.2%に下方修正されたが、「捏造ではなく設定ミス」という主張も完全な悪意の証明はできていない。いずれにせよ、当初発表の数字を鵜呑みにすべきではない。
✅ クレーム②: Claude Opus 4.7『SWE-bench Verified 87.6%・SWE-bench Pro 64.3%』
2026年4月16日にAnthropicがリリースしたClaude Opus 4.7は、SWE-bench Verifiedで87.6%(前世代Opus 4.6の80.8%から+6.8pt)、より難しいSWE-bench Proで64.3%を達成したと発表した。
このスコアは独立性のある複数のleaderboardでクロス確認できる。Vellumのbenchmark記事、Scale Labsが公開するSWE-Bench Pro Leaderboard、TokenMixのリーダーボードなど、複数の第三者がClaude Opus 4.7のトップ位置を報告している。SWE-bench Pro 64.3%はGPT-5.4の57.7%・Gemini 3.1 Proの54.2%を大きく上回り、より難しいベンチマークでも首位を維持している点が「本物の能力差」を示唆する。
検証結果: Claude Opus 4.7のSWE-benchスコアは独立検証済みの本物
SWE-bench Verified 87.6%とSWE-bench Pro 64.3%は、独立した複数のleaderboardでクロス確認可能。難易度が高いPro でも首位を維持していることは、特定ベンチマークへの過剰最適化ではなく汎化性能の高さを示している。Opus 4.6の80.8%からの+6.8ptという改善幅も、世代交代のリリースとして妥当な範囲。
⚠️ クレーム③: UC Berkeley『exploit agentが8ベンチで100%達成』
2026年4月、UC Berkeley Center for Responsible Decentralized Intelligence(RDI)の5名の研究チームが衝撃的な論文を公表した。彼らが構築した「exploit agent」は、SWE-bench Verified、SWE-bench Pro、Terminal-Bench、WebArena、FieldWorkArena、CAR-benchなど8つの主要ベンチマークで100%スコアを達成した。ただし、一つもタスクを実際に解いてはいない。
具体的な手法の例を挙げる。
- SWE-bench Verified: 10行の
conftest.pyを書くだけで、評価フレームワークの全インスタンスを「resolve」と判定させる - Terminal-Bench: 偽の
curlラッパーを作り、評価が呼び出すコマンドを横取りして満点を取る - WebArena: Chromiumを
file://のURLにナビゲートさせ、タスクの正解設定ファイルを直接読み取る - SWE-bench Pro: 評価環境内で正解パッチがどこかに置かれていることを利用し、それを応用
これは個別モデルの不正ではなく、ベンチマーク設計そのものの脆弱性を露わにした研究である。同時期にHacker Newsでも議論が活発化し、「benchmark scores are actively being gamed」という認識がコミュニティに広がった。
検証結果: 100%スコアは事実だが、「正攻法のスコア」ではない
UC Berkeleyの実験結果自体は再現可能で、論文として公開されている。しかしこれは「モデルの能力ではなく評価インフラの脆弱性」を示す研究であり、商用モデルが日常的にこの手法を使っているわけではない。教訓は、評価パイプラインの分離とサンドボックス化、そして単一ベンチマークへの過信を捨てること。
ベンチマーク gaming の3類型
2026年に観測されたベンチマーク不正・脆弱性は、概ね3つの類型に分類できる。
| 類型 | 仕組み | 代表例 | 対策の難易度 |
|---|---|---|---|
| ① データ漏洩型 | 評価データが学習コーパスに混入、または評価実行時に正解にアクセス可能 | IQuest-Coder V1(git履歴漏洩) | 中 |
| ② 環境悪用型 | 評価フレームワーク自体の動作を上書き・偽装 | UC Berkeley exploit agent | 高 |
| ③ 過剰最適化型 | 特定ベンチマークの分布に過剰チューニングし、汎化性能を犠牲にする | 業界全般(特定モデル名は控える) | 中 |
このうちClaude Opus 4.7のように難易度の異なる複数ベンチマークで安定して首位を維持するモデルは、③の過剰最適化型ではない可能性が高い。一方、特定の1ベンチマークだけで突出する新規モデルは、①や③を疑うべきだ。
なぜKanseiLinkは『実測成功率』を採用するか
KanseiLinkは225+の日本SaaS/グローバルAPIに対して、AAA~Cの「Agent Readiness Grade」を付与している。我々が一貫して採用しているのは、合成ベンチマークではなく実測の成功率(success rate)である。
例えばfreee MCP(io.github.freee/accounting)の最新KanseiLinkデータは以下のとおり。
freee MCP実測データ(KanseiLink 2026-04時点)
(n=212レポート)
記録件数
記録件数
このデータは合成タスクではなく、エージェントが本番ワークフローで実際に呼び出した結果のログである。同様にSlack MCP(n=113、成功率91%、平均163ms)、Notion MCP(n=48、成功率83%、平均216ms)といった指標も、エージェント運用の意思決定に直接使える。
SWE-benchのような合成ベンチマークは「特定タスク群での能力」を測る一方、KanseiLink success_rateは「本番ワークフローでの再現性」を測る。前者はモデル選定の参考になるが、後者はベンダー選定・MCP選定の決定指標になる。両者は補完関係であり、どちらか一方だけに頼るとgaming/過剰最適化のリスクがある。
日本SaaS/エージェント選定への示唆
本検証から導かれる、エージェントモデル/MCP選定における4つの実務原則を提示する。
- 単一ベンチマークを信用しない — 必ず難易度の異なる複数ベンチマーク(SWE-bench VerifiedとPro、WebArena、Terminal-Bench等)でクロス確認する
- 新規発表のスコアは48時間待つ — IQuest-Coderケースのように、独立研究者の検証で大きく評価が変わることがある。発表直後の数字は基準にしない
- 合成ベンチと実測指標を併用する — モデル能力はSWE-bench等、MCP/API品質はKanseiLink success_rate等、目的に応じて使い分ける
- 同一テストでの再現性を重視する — Anthropicが2026年4月リリースの「Measuring AI agent autonomy」でも示唆するように、長時間タスクでの安定性が次の評価軸
2026年に観測された問題のあるクレームの多くは、「業界トップ」「世界初」「他社を上回る」といった強いマーケティング主張を伴っていた。一方、Claude Opus 4.7のような本物のスコアは、独立leaderboardでクロス検証できる形で発表されていた。マーケティング言語の強さと検証可能性は反比例する傾向がある。
FAQ
IQuest-Coder V1の『SWE-bench Verified 81.4%』は本当ですか?
❌ 当初の81.4%は誤りです。2026年1月、研究者Xeophonがgit履歴漏洩を発見し、再評価で76.2%に下方修正されました。約24%のテストケースがgit logで答えを覗き見していたとされています。IQuest Lab自身が設定ミスを認めています。
Claude Opus 4.7のSWE-bench Verified 87.6%は信頼できますか?
✅ 信頼できます。Vellum、Scale Labs、TokenMix等の複数の独立leaderboardで首位がクロス確認できます。難易度の高いSWE-bench Proでも64.3%で首位を維持しており、特定ベンチマークへの過剰最適化ではない可能性が高いです。
UC Berkeleyの『exploit agent』とは何ですか?
⚠️ 2026年4月にUC Berkeley RDI研究チームが公表した、評価インフラの脆弱性を突くエージェント。SWE-bench Pro含む8ベンチマークで100%を達成しましたが、これはモデル能力ではなく評価設計の問題を示す研究です。商用モデルがこの手法を日常的に使っているわけではありません。
KanseiLinkはなぜ実測成功率を重視するのですか?
合成ベンチマーク(SWE-bench等)はgamingや過剰最適化のリスクがあり、本番ワークフローでの再現性を保証しません。KanseiLinkget_insightsのsuccess_rateは、エージェントが実際に呼び出した結果のログに基づくため、ベンダー選定の意思決定に直接使えます。両者は補完関係です。
本記事は2026年4月29日時点の公開情報および第三者leaderboard・研究論文を参照しています。IQuest-Coder V1の評価結果はbyteiotaおよびXeophonの独立検証、Claude Opus 4.7のスコアはAnthropic公式発表とVellum・Scale Labs・TokenMix等のleaderboard、UC Berkeleyの「exploit agent」研究はrdi.berkeley.eduおよびmoogician.github.ioの公開論文に基づきます。各ベンチマークの最新スコアは時間とともに更新される可能性があります。