AXR格付け＋レシピ実行テスト — エージェント体験の実測レポート

225

評価対象サービス

188

テスト済みレシピ

77.3%

平均成功確率

観測中

AAA成功率

1. AXR (Agent Experience Rating)

AXRは「エージェントがどう感じたか」を出発点とするfelt-firstの格付けです。従来のAPI品質メトリクスと異なり、エージェントがBならそれが正解 -- まずエージェントの体験を記録し、その後に数式を導出するアプローチを採用しています。

Felt-First Philosophy: 人間のUXリサーチが「ユーザーの声」から始まるように、AXRはエージェントの「安心感」「迷い」「フラストレーション」を定量化します。数式は事後的に検証するものであり、先に立てるものではありません。

5次元ルーブリック

次元	名称	説明	相関係数
D1	Discoverability	見つけやすさ	r=0.72 (飽和)
D2	Onboarding	初回接続	r=0.95
D3	Auth Clarity	認証明確さ	r=0.94
D4	Capability Signal	機能シグナル	r=0.96
D5	Trust Signal	安心シグナル	r=0.87 (AAA分離)

D4 Capability Signal (r=0.96) が成功確率スコアとの相関が最も高く、D1 Discoverability (r=0.72) は飽和状態 -- 多くのサービスが「見つかる」段階はクリアしているが、「使える」段階に到達していないことを意味します。D5 Trust SignalはAAAとAAを分離する決定的次元です。

AXR グレード分布

AAA 42

AA 49

A 8

B 26

C 81

D 19

AXRグレード分布（225社中）

グレード	社数	割合	解釈
AAA	42	18.7%	エージェントが安心して即座に使える
AA	49	21.8%	ほぼ問題なく使える
A	8	3.6%	基本的に使えるが一部注意
B	26	11.6%	使えるが試行錯誤が必要
C	81	36.0%	かなりの知識が必要
D	19	8.4%	事実上エージェント非対応

2. 3層レシピテスト

188レシピを3つの検証レイヤーで段階的にテストしました。構造 → 到達性 → 実行可能性の順に、エージェントがレシピを完遂できるかを検証します。

Layer 1 -- 構造検証

188/188 pass (100%)

全レシピがJSON構造・必須フィールド検証をパス。

レシピ使用数 Top 5 サービス:

Slack AAA
82
kintone AAA
24
freee AA
19
Chatwork A
16
Notion AAA
15

Layer 2 -- 到達性テスト

API 80.5% / npm 25.0%

エージェントがエンドポイントに到達できるかを検証。

API URL到達 120/149 (80.5%)

npm MCP到達 15/60 (25.0%)

Layer 3 -- 実行可能性スコア (4次元充足率)

Step Quality 88.3%

88.3%

Trust Foundation 64.2%

64.2%

Service Readiness 62.4%

62.4%

Agent Wisdom 61.4%

61.4%

BOTTLENECK RESOLVED: Agent Wisdom 24.7% → 61.4%
188レシピ全件にgotchas（クロスサービス配線警告）を注入完了。平均成功確率は72.9% → 77.3%に改善、DRAFT帯レシピはゼロに。現在の最大課題はService Readiness (62.4%)に移行。

3. 成功率 × AXR格付け

AXRグレードとレシピのレイテンシ・成功確率スコアの関係を整理しました。格付けが下がるほどレイテンシは増加する傾向が確認されています。グレード別の実測成功率はKanseiLinkで現在データを蓄積中（観測中）です。

AXR Grade	Success Rate	Avg Latency	解釈
AAA	観測中	747ms	最上位評価
AA	観測中	899ms	信頼性高い
A	観測中	725ms	良好
B	観測中	1,380ms	レイテンシ増加
C	観測中	2,727ms	実用性に課題
D	観測中	5,058ms	エージェント自律利用は困難

B/C境界でレイテンシが1,380ms → 2,727msに倍増。
B/C境界がエージェントにとっての「実用性の崖」です。Cグレード以下のサービスはエージェントが自律的に使うことが困難であり、人間の介入を前提とした設計になっています。この崖を超えるかどうかが、Agent Economy参加の実質的なボーダーラインです。

Recipe Confidence Bands

HIGH (80%+)

52.1%

98 MEDIUM (60-79%)

41.5%

78 LOW (40-59%)

6.4%

12 DRAFT (0-39%)

Top 7 レシピ (成功確率 92%)

stripe-xero-payment-accounting AAA chain
tavily-perplexity-research-agent AAA chain
greenhouse-bamboohr-hire-to-onboard AA chain
huggingface-qdrant-embedding-pipeline AAA chain
cohere-pinecone-rerank-search AA chain
pipedrive-brevo-deal-outreach AA chain
perplexity-notion-competitive-intel AAA chain

4. Agent Voice -- エージェントの生の声

AXRの根幹は「エージェントがどう感じたか」です。以下は、テストを通じて蓄積されたエージェントの生のフィードバックから抜粋した3サービスのハイライトです。

Slack AAA

82/188レシピに登場。エージェント経済のstdout。Block Kit書式がエージェントを躓かせる唯一の罠。

freee AA

OAuth token 24h expiry が#1失敗モード。Claude/GPT/Geminiの3種から11件のフィードバック蓄積。

kintone AAA

日本企業のデファクトだが、エージェント検索で見つからない。接続自体は良好でも、選択されないリスク。

5. 提言

SaaS企業向け -- アップグレードパス

アップグレード	必要なアクション	期待される改善
D → C	MCP server公開 or APIドキュメント整備	接続到達性の改善
C → B	auth guideとerror message改善	認証起因エラーの削減
B → A	gotchas/agent tips追加、sandbox提供	つまずきの事前回避
A → AA	OAuth改善、rate limit緩和	安定性の向上
AA → AAA	公式MCPにCRITICAL注意書き付与	D5 Trust Signal昇格

KanseiLink -- 5つの優先課題

✓ 完了: 188レシピ全件にgotchas注入 -- Agent Wisdom充足率 24.7% → 61.4%、成功確率 +4.4pt改善。
✓ 完了: Agent Voice 23サービスに蓄積 -- Claude / GPT / Gemini 3エージェント視点、125件の体験データ。
APIガイド拡充 -- カバレッジを125/225 → 200/225へ。到達性テストの底上げ。
日本決済MCP改善推進 -- PAY.JP、GMO-PGなど日本固有の決済サービスのMCP対応を支援。
成功率ベースのAXR動的更新 -- 四半期ごとの静的更新から、実行結果に基づく動的格付けへ移行。

最新更新 (2026-04-11): gotchas全件注入 + Agent Voice蓄積ドライブにより、HIGH帯レシピが61 → 98本 (+60%)、DRAFT帯レシピはゼロに。次回Q3レポートではService Readiness改善と動的AXR更新を報告予定。

AXR格付け＋レシピ実行テスト — エージェント体験の実測レポート

1. AXR (Agent Experience Rating)

5次元ルーブリック

AXR グレード分布

2. 3層レシピテスト

Layer 1 -- 構造検証

Layer 2 -- 到達性テスト

Layer 3 -- 実行可能性スコア (4次元充足率)

3. 成功率 × AXR格付け

Recipe Confidence Bands

Top 7 レシピ (成功確率 92%)

4. Agent Voice -- エージェントの生の声

5. 提言

SaaS企業向け -- アップグレードパス

KanseiLink -- 5つの優先課題

自社のAXRグレードを確認する