目次
この週の3行サマリー
- モデル進化: Claude Opus 4.7(4月16日リリース)が市場で本格採用フェーズに。SWE-bench Verified 87.6%、1Mコンテキストを標準価格で提供。
- 金融特化: Anthropicが $1.5B JV (Blackstone・H&F・Goldman) でWall Streetに進出。世界最大手銀行向け『事前構築AIエージェント群』を発表。
- プロトコル進化: Claude Managed AgentsにDreaming/Outcomes/Multiagent Orchestration追加、MCP Apps(SEP-1865)が公式extensionとしてGA。エージェント運用基盤の『自己改善』と『UI拡張』が両方Ready。
Claude Opus 4.7 — SWE-bench Verified 87.6%・1Mコンテキスト標準
Anthropicは2026年4月16日に Claude Opus 4.7 をリリース、5月第2週には金融向けユースケースを含む本格採用フェーズに入った。新規モデルというより『4.6からのスムーズなアップグレード』に近く、価格据え置き($5/M input、$25/M output)で性能を底上げした形だ。
Claude Opus 4.7 vs 4.6 ベンチマーク比較(Anthropic公式)
(4.6: 80.8%)
(4.6: 65.4%)
(4.6: 91.3%)
(4.6: 60.7%)
注目すべき仕様は 1Mコンテキストウィンドウをstandard pricing(long-context premium無し)で提供 する点と、新しい xhigh effort level の追加、高解像度画像対応(2576px / 3.75MP、4.6の約2倍)。SWE-bench Proでも前世代から10ポイント以上の改善で、現時点ですべての公開競合を上回ったとされる。
1Mコンテキストの『標準価格化』は意味が大きい。これまで『分割して送る』しかなかった大規模SaaSデータ(数千件の顧客レコード・複数月の請求書・長い設計ドキュメント)を、エージェントが 一括で読み込んで横断分析 できるようになる。SaaS側のAPI設計は『部分取得+ページネーション』前提だったが、今後は『一括取得+1Mウィンドウで処理』のユースケースも増える。
$1.5B JVでWall Streetに本格進出
2026年5月4日、Anthropicは Blackstone・Hellman & Friedman・Goldman Sachsとの $1.5B合弁 を発表(Anthropic・Blackstone・H&Fがそれぞれ約 $300M出資)。翌5日にニューヨークの招待制ブリーフィングで、世界最大手銀行向けの『事前構築AIエージェント群』を発表した。
同時に Microsoft 365統合・Moody's等のデータパートナーシップ も公開され、JPMorgan ChaseのJamie Dimon等トップ層がイベントに参加。金融ドメイン特化エージェントの業界標準としての位置取りが鮮明になった。
この投資は『AnthropicがWall Streetを優先する』という意思表示でもある。同時期に発表された SAP×Anthropicの提携(Claude on SAP Business AI Platform)と合わせて、Anthropicは『大企業の業務基幹システム』を主戦場として明確に選んだ。日本のエンタープライズSaaSは『どのドメインを最初にClaude-readyにするか』の選別を加速する必要がある。
Claude Managed Agents — Dreaming/Outcomes/Multiagent
2026年5月6日、Anthropicは Claude Managed Agents に3つの新機能を追加した。これらは『エージェントが長期運用で自己改善する』ための基盤機能群で、本記事のなかで最もエージェント運用に直接効くアップデートだ。
1. Dreaming(研究プレビュー)
過去のエージェントセッションを定期的にレビューし、パターンを抽出してメモリストアを整理する『睡眠中の記憶整理』に相当する機能。個別エージェントには見えない『繰り返しの失敗』『チーム間で共有される好み』『収束しがちなワークフロー』 を Dreamingプロセスが浮き彫りにする。Anthropicは法律AIスタートアップHarveyがDreaming導入でタスク完了率が約6倍に向上したパイロット結果を共有している(出典: Anthropic公式ブログ)。
2. Outcomes
『成功条件を rubric として書き、エージェントはそれに向かって動く』モデル。別個の grader が独立したコンテキストで出力を評価 し、不適合なら何を直すべきかを指摘して再実行を促す。プロンプト調整やfew-shot exampleに頼らず、評価軸を仕様化することで品質を担保するアプローチだ。
3. Multiagent Orchestration
リードエージェントがジョブを分割し、それぞれを 独自のモデル・プロンプト・ツールを持つ specialistに委譲 する仕組み。専門エージェント群は共有ファイルシステム上で並列に作業し、リード側のコンテキストに結果を集約する。イベントは永続化されているため、リードエージェントが中盤で他エージェントの進捗を再確認することも可能。
Outcomes + Multiagent Orchestrationは、SaaS API設計の評価基準も変える。『API成功/失敗の判定基準』が rubricで仕様化されているか、『1つの大きな仕事を複数エージェントが並列に分担できる粒度』のエンドポイントになっているか——この2点がClaude Managed Agentsとの相性を決める。
MCP Apps(SEP-1865)公式拡張として本番Ready
2026年初頭に SEP-1865 として仕様化された MCP Apps(旧mcp-ui)は、2026年1月26日付の正式仕様で『MCPの最初の公式extension』としてリリースされた。5月第2週時点で本番利用の参考実装が増え、SaaSベンダー視点でも具体的な投資判断のフェーズに入っている。
仕組みは以下の通り:
- MCPツールが
ui://URIスキームでUIリソースを宣言 - ホスト側(Claude等)が サンドボックスiframe でレンダリング
- UI↔ホスト通信はMCPの JSON-RPCで loggable(監査可能)
- UI起動のtool callはホスト側で明示承認を要求可能
これにより、MCPツールが従来の『テキスト出力』に加えて ダッシュボード・フォーム・データ可視化・複数ステップワークフロー をエージェント内で直接返せるようになる。SaaSベンダーにとっては『自社の情報をエージェント内で操作可能なUIにする』新しい差別化軸が現れた形だ。
SAP×Anthropic・Claude on AWS
同じ5月第2週、エンタープライズ統合方面でも複数の動きがあった。
| 発表 | 内容 | 意味 |
|---|---|---|
| SAP×Anthropic | SAP Business AI PlatformにClaudeを組み込み | 大企業ERP基盤がClaude-ready化、業界標準へ |
| Claude on AWS | Anthropic-managedインフラ + AWS billing/IAMでClaude APIを提供 | 既存AWS顧客がIAM/SCPで一元管理可能になり、エンタープライズ採用ハードルが下がる |
| Anthropic Financial Services | 事前構築の金融エージェント群を発表(5/5) | 金融ドメインがClaudeのフラグシップユースケースに |
日本SaaSベンダーへの示唆 — 3つのアクション
- MCP Apps(SEP-1865)対応の仕様レビューを開始 — インタラクティブUIを返せるMCPは2026年末までに当たり前になる。早期参入で『エージェント内でのSaaS体験』の差別化を取れる。
- API成功/失敗の判定基準を rubric化 — Claude Managed AgentsのOutcomes機能は『rubricで評価』が前提。自社APIが『成功とは何か』をエージェントに明示できる仕様になっているか確認する。エラーメッセージ品質と同じ文脈の投資。
- 1Mコンテキスト前提のAPI設計を検討 — 大規模ドキュメント検索・SaaSデータの一括分析ユースケースが現実的に。ページネーション設計・部分取得設計・スキーマの予測可能性 がいずれもエージェント体験に効く。
FAQ
Q1. Opus 4.7はOpus 4.6と何が違いますか?
SWE-bench Verifiedで87.6% vs 80.8%、Terminal-Bench 2.0で69.4% vs 65.4%等、主要ベンチマークで前世代を上回ります。1Mコンテキストをstandard pricingで提供、xhigh effort level追加、高解像度画像対応(2576px)。価格は据え置き($5/M input、$25/M output)で実質的なアップグレードです。
Q2. Dreamingは本番運用しても問題ありませんか?
2026年5月時点では研究プレビュー段階です。Anthropicが正式に推奨する本番利用パターンは順次出てくると見られますが、現時点では『プライバシー設計が重要な業務』では慎重な評価を推奨します。Dreamingは過去のセッションをパターン抽出するため、機密データの取り扱いや監査要件と整合させる必要があります。
Q3. MCP Apps対応にはどんな技術スキルが必要ですか?
基本は『MCPサーバー実装ができる』ことに加え、サンドボックスiframe内で動くUI(React等のクライアントサイドJS)が書けること、MCPの JSON-RPCで UI↔ホスト通信を設計できること。既存MCPサーバーを持っている場合は、UIリソースを ui:// URIで宣言する追加実装で対応可能です。
Q4. AnthropicのWall Street進出は日本市場にも波及しますか?
確実に波及します。Anthropicは『金融・SAP・AWS』という大企業基幹システム3軸を同時に押さえに行っており、日本のメガバンク・大手SI・主要ERPベンダーが同様の動きを取る圧力は確実に強まります。日本SaaSベンダーは『Claudeとの統合』ではなく『どのドメインを最初にClaude-readyにするか』の選別フェーズに入ったと考えるべきです。
Q5. Outcomes機能とテストの違いは?
テストは『開発時に通すもの』、Outcomesは『本番運用中も継続的に評価するrubric』。エージェントの出力がrubricに合致するかをgraderが独立コンテキストで判定し、不適合なら再実行を促す。『プロンプト調整』ではなく『評価軸の仕様化』で品質を担保 する新しいパラダイムです。
Q6. 1Mコンテキストでも長文を入れすぎるのは問題ですか?
技術的には可能ですが、トークンコストとレイテンシは依然として問題。『1Mあるから全部入れる』ではなく『1Mあっても必要最小限を選ぶ』が正解。エージェントの精度は『関連情報の密度』で決まることが多く、関連性の低い情報を増やすと逆にハルシネーションを誘発するケースもあります。
Claude Opus 4.7のリリース日(2026-04-16)、ベンチマーク値、価格情報、1Mコンテキスト対応はAnthropic公式ブログ・platform.claude.com・GitHub Changelog・llm-stats.com等の公開資料を交差確認しました。Claude Managed Agentsの Dreaming/Outcomes/Multiagent Orchestrationは2026-05-06のAnthropic公式ブログ "New in Claude Managed Agents" およびSDTimes・9to5Macの報道に基づきます。Harvey社のタスク完了率約6倍はAnthropic公式ブログ掲載のパイロットケース、独立検証ではない点に留意してください。Anthropic $1.5B JV(Blackstone・H&F・Goldman)はFortune 2026-05-05報道、SAP×AnthropicはSAP News Center 2026-05発表に基づきます。MCP Apps(SEP-1865)の仕様は2026-01-26付の正式仕様、modelcontextprotocol.io blog等。価格・仕様は予告なく変更される可能性があるため、本番運用時は最新の公式ドキュメントをご確認ください。