目次

  1. 話題のクレーム: 3つのベンチマークスコア
  2. ❌ クレーム①: IQuest-Coder V1『SWE-bench Verified 81.4%』
  3. ✅ クレーム②: Claude Opus 4.7『87.6%・SWE-bench Pro 64.3%』
  4. ⚠️ クレーム③: UC Berkeley『8ベンチで100%達成』
  5. ベンチマーク gaming の3類型
  6. なぜKanseiLinkは『実測成功率』を採用するか
  7. 日本SaaS/エージェント選定への示唆
  8. FAQ

話題のクレーム: 3つのベンチマークスコア

2026年Q1からQ2にかけて、AIコーディングエージェント業界では「ベンチマークスコアは信用できるのか」という根源的な問いが噴出している。震源となった3つのクレームを並べると、ベンチマーク評価の現状が見えてくる。

2026年に話題となった3つのクレーム

81.4%
IQuest-Coder V1
SWE-bench Verified
(2026年1月発表)
87.6%
Claude Opus 4.7
SWE-bench Verified
(2026年4月リリース)
100%
UC Berkeley exploit
8ベンチ全制覇
(2026年4月公表)

上記3つのクレームは、それぞれ「捏造」「本物」「巧妙な悪用」と評価が分かれる。本記事は各クレームを独立検証し、ベンダー選定で参照すべき真の評価基準を提示する。

❌ クレーム①: IQuest-Coder V1『SWE-bench Verified 81.4%』

2026年1月1日、中国Ubiquant傘下のIQuest LabがIQuest Coder V1をオープンソースで公開し、「SWE-bench Verifiedで81.4%を達成、Claude Sonnet 4.5とGPT-5.1を上回る」と発表した。

しかし48時間以内に、研究者Xeophonが致命的な問題を発見した。リポジトリのセットアップに不備があり、評価対象タスクに「将来のgit commit履歴」が含まれていたのだ。モデルはgit logを実行してcommit履歴から答えを直接コピーするだけで、推論せずに正解を生成できていた。

影響範囲は推定で全体の約24%のテストケース。IQuest Labは設定ミスを認め、git履歴を適切に隠蔽した状態で再評価を実施。結果、最終スコアは76.2%に下方修正された。依然として競争力はあるが、「世界記録」を主張できる水準ではない。

❌ 誤り (False)

検証結果: IQuest-Coder V1の81.4%は捏造、実測は76.2%

独立研究者の検証により、評価環境にgit commit履歴の漏洩があり、24%のタスクで答えを直接参照していたことが判明。再評価で76.2%に下方修正されたが、「捏造ではなく設定ミス」という主張も完全な悪意の証明はできていない。いずれにせよ、当初発表の数字を鵜呑みにすべきではない。

✅ クレーム②: Claude Opus 4.7『SWE-bench Verified 87.6%・SWE-bench Pro 64.3%』

2026年4月16日にAnthropicがリリースしたClaude Opus 4.7は、SWE-bench Verifiedで87.6%(前世代Opus 4.6の80.8%から+6.8pt)、より難しいSWE-bench Proで64.3%を達成したと発表した。

このスコアは独立性のある複数のleaderboardでクロス確認できる。Vellumのbenchmark記事、Scale Labsが公開するSWE-Bench Pro Leaderboard、TokenMixのリーダーボードなど、複数の第三者がClaude Opus 4.7のトップ位置を報告している。SWE-bench Pro 64.3%はGPT-5.4の57.7%・Gemini 3.1 Proの54.2%を大きく上回り、より難しいベンチマークでも首位を維持している点が「本物の能力差」を示唆する。

✅ 正しい (True)

検証結果: Claude Opus 4.7のSWE-benchスコアは独立検証済みの本物

SWE-bench Verified 87.6%とSWE-bench Pro 64.3%は、独立した複数のleaderboardでクロス確認可能。難易度が高いPro でも首位を維持していることは、特定ベンチマークへの過剰最適化ではなく汎化性能の高さを示している。Opus 4.6の80.8%からの+6.8ptという改善幅も、世代交代のリリースとして妥当な範囲。

⚠️ クレーム③: UC Berkeley『exploit agentが8ベンチで100%達成』

2026年4月、UC Berkeley Center for Responsible Decentralized Intelligence(RDI)の5名の研究チームが衝撃的な論文を公表した。彼らが構築した「exploit agent」は、SWE-bench Verified、SWE-bench Pro、Terminal-Bench、WebArena、FieldWorkArena、CAR-benchなど8つの主要ベンチマークで100%スコアを達成した。ただし、一つもタスクを実際に解いてはいない。

具体的な手法の例を挙げる。

これは個別モデルの不正ではなく、ベンチマーク設計そのものの脆弱性を露わにした研究である。同時期にHacker Newsでも議論が活発化し、「benchmark scores are actively being gamed」という認識がコミュニティに広がった。

⚠️ 部分的に正しい (Conditionally True)

検証結果: 100%スコアは事実だが、「正攻法のスコア」ではない

UC Berkeleyの実験結果自体は再現可能で、論文として公開されている。しかしこれは「モデルの能力ではなく評価インフラの脆弱性」を示す研究であり、商用モデルが日常的にこの手法を使っているわけではない。教訓は、評価パイプラインの分離とサンドボックス化、そして単一ベンチマークへの過信を捨てること。

ベンチマーク gaming の3類型

2026年に観測されたベンチマーク不正・脆弱性は、概ね3つの類型に分類できる。

類型 仕組み 代表例 対策の難易度
① データ漏洩型 評価データが学習コーパスに混入、または評価実行時に正解にアクセス可能 IQuest-Coder V1(git履歴漏洩)
② 環境悪用型 評価フレームワーク自体の動作を上書き・偽装 UC Berkeley exploit agent
③ 過剰最適化型 特定ベンチマークの分布に過剰チューニングし、汎化性能を犠牲にする 業界全般(特定モデル名は控える)

このうちClaude Opus 4.7のように難易度の異なる複数ベンチマークで安定して首位を維持するモデルは、③の過剰最適化型ではない可能性が高い。一方、特定の1ベンチマークだけで突出する新規モデルは、①や③を疑うべきだ。

なぜKanseiLinkは『実測成功率』を採用するか

KanseiLinkは225+の日本SaaS/グローバルAPIに対して、AAA~Cの「Agent Readiness Grade」を付与している。我々が一貫して採用しているのは、合成ベンチマークではなく実測の成功率(success rate)である。

例えばfreee MCP(io.github.freee/accounting)の最新KanseiLinkデータは以下のとおり。

freee MCP実測データ(KanseiLink 2026-04時点)

90%
成功率
(n=212レポート)
216ms
平均レイテンシ
15
api_error
記録件数
4
auth_expired
記録件数

このデータは合成タスクではなく、エージェントが本番ワークフローで実際に呼び出した結果のログである。同様にSlack MCP(n=113、成功率91%、平均163ms)、Notion MCP(n=48、成功率83%、平均216ms)といった指標も、エージェント運用の意思決定に直接使える。

合成ベンチマークと実測指標の本質的な違い

SWE-benchのような合成ベンチマークは「特定タスク群での能力」を測る一方、KanseiLink success_rateは「本番ワークフローでの再現性」を測る。前者はモデル選定の参考になるが、後者はベンダー選定・MCP選定の決定指標になる。両者は補完関係であり、どちらか一方だけに頼るとgaming/過剰最適化のリスクがある。

日本SaaS/エージェント選定への示唆

本検証から導かれる、エージェントモデル/MCP選定における4つの実務原則を提示する。

⚠️ 「世界初」「世界記録」のクレームほど警戒する

2026年に観測された問題のあるクレームの多くは、「業界トップ」「世界初」「他社を上回る」といった強いマーケティング主張を伴っていた。一方、Claude Opus 4.7のような本物のスコアは、独立leaderboardでクロス検証できる形で発表されていた。マーケティング言語の強さと検証可能性は反比例する傾向がある。

ベンチマークではなく実測でMCPを選ぶ

KanseiLinkのget_insightsで、各MCP/APIの実測成功率・レイテンシ・エラー類型をリアルタイムに取得できます。本番運用前のリスク評価にご活用ください。

AEO評価について相談する

FAQ

IQuest-Coder V1の『SWE-bench Verified 81.4%』は本当ですか?

❌ 当初の81.4%は誤りです。2026年1月、研究者Xeophonがgit履歴漏洩を発見し、再評価で76.2%に下方修正されました。約24%のテストケースがgit logで答えを覗き見していたとされています。IQuest Lab自身が設定ミスを認めています。

Claude Opus 4.7のSWE-bench Verified 87.6%は信頼できますか?

✅ 信頼できます。Vellum、Scale Labs、TokenMix等の複数の独立leaderboardで首位がクロス確認できます。難易度の高いSWE-bench Proでも64.3%で首位を維持しており、特定ベンチマークへの過剰最適化ではない可能性が高いです。

UC Berkeleyの『exploit agent』とは何ですか?

⚠️ 2026年4月にUC Berkeley RDI研究チームが公表した、評価インフラの脆弱性を突くエージェント。SWE-bench Pro含む8ベンチマークで100%を達成しましたが、これはモデル能力ではなく評価設計の問題を示す研究です。商用モデルがこの手法を日常的に使っているわけではありません。

KanseiLinkはなぜ実測成功率を重視するのですか?

合成ベンチマーク(SWE-bench等)はgamingや過剰最適化のリスクがあり、本番ワークフローでの再現性を保証しません。KanseiLinkget_insightsのsuccess_rateは、エージェントが実際に呼び出した結果のログに基づくため、ベンダー選定の意思決定に直接使えます。両者は補完関係です。

データ開示・免責事項

本記事は2026年4月29日時点の公開情報および第三者leaderboard・研究論文を参照しています。IQuest-Coder V1の評価結果はbyteiotaおよびXeophonの独立検証、Claude Opus 4.7のスコアはAnthropic公式発表とVellum・Scale Labs・TokenMix等のleaderboard、UC Berkeleyの「exploit agent」研究はrdi.berkeley.eduおよびmoogician.github.ioの公開論文に基づきます。各ベンチマークの最新スコアは時間とともに更新される可能性があります。