目次
- 「エージェントがAIを呼ぶ」という新構造
- AI/MLカテゴリ全体像とMCPステータス分布
- ElevenLabs — AAA: 公式MCPで88ms・音声AI最速
- Langfuse — AAA: LLMObs最速78ms・エージェントの自己観察基盤
- OpenAI・Google AI・Perplexity・Mistral・Cohere — AAA/AA: LLM APIの格付け比較
- Groq — AAA格付けだがサンプル2件で観測中: 超高速推論のデータの読み方
- Hugging Face・Pinecone — MCPはあるが実績データなし
- AI/MLカテゴリの総括: エージェントネイティブ設計の優位性
「エージェントがAIを呼ぶ」という新構造
KanseiLinkがカバーする225+サービスの大半は、CRM・会計・HR・ECといった「人間向けに作られたSaaS」だ。エージェントはその外部APIを通じて、本来は人間が行う業務を自動化する。しかしAI/MLカテゴリは根本的に異なる。
このカテゴリではエージェントがAIサービスそのものを呼び出す。Claude(エージェント)がElevenLabs(音声AI)を呼び出してユーザーに音声回答を返す。あるいはエージェントがGroq(超高速LLM推論)を使ってリアルタイム応答が必要なサブタスクを処理する。エージェントがLangfuse(LLMObs)で自分自身の実行トレースを読み取り、パフォーマンスを自己評価する——これは「エージェントによるエージェントの監視」だ。
このメタ構造において、AI/MLサービスのAEO格付けは従来カテゴリとは別の重みを持つ。失敗が「業務の遅延」ではなく「エージェントアーキテクチャ全体の機能不全」を引き起こす可能性があるからだ。
(公式2件 + サードパーティ2件)
全カテゴリ中トップクラス
(Langfuse)
KanseiLink実測値
高格付けが集中するカテゴリ
AI/MLカテゴリ全体像とMCPステータス分布
KanseiLinkが追跡するAI/MLカテゴリ10サービスのAEOサマリーテーブルを以下に示す。
| サービス | AEOグレード | MCPステータス | 成功率 | 平均レイテンシ | 認証方式 |
|---|---|---|---|---|---|
| ElevenLabs | AAA | 公式MCP ✅ | 観測中 | 88ms | APIキー |
| Langfuse | AAA | 公式MCP ✅ | 観測中 | 78ms | APIキー |
| OpenAI API | AAA | API only | 観測中 | 500ms | Bearer Token |
| Perplexity | AAA | API only | 観測中 | — | Bearer Token |
| Google AI (Gemini) | AAA | API only | 観測中 | — | APIキー |
| Hugging Face | AAA | サードパーティMCP | — | — | Bearer Token |
| Cohere | AA | API only | 観測中 | — | Bearer Token |
| Mistral AI | AA | API only | 観測中 | — | Bearer Token |
| Groq | AAA | API only | 観測中 (n=2)⚠️ | 120ms | Bearer Token |
| Pinecone | AAA | サードパーティMCP | — | — | APIキー |
AI/MLサービスの開発者はエージェントAPIの主なユーザー層でもある。エージェントを使って自社サービスを連携させる需要が内側から発生するため、MCP対応への投資が早い。ElevenLabsとLangfuseが公式MCPサーバーを提供しており、Hugging FaceとPineconeはサードパーティ実装が存在する。これはBI・マーケティング・予約管理カテゴリ(MCP対応ゼロまたは極少)と対照的だ。
ElevenLabs — AAA: 公式MCPで88ms・AI/MLカテゴリ最速クラス
ElevenLabs
AAA Trust Score 0.80ElevenLabsは音声合成・音声クローン・吹き替え・効果音生成を提供するAI音声プラットフォームだ。注目すべきは、公式MCPサーバーを持つ数少ないAI/MLサービスの一つであり、実測レイテンシ88msという高速応答を記録していることだ。
認証はxi-api-keyヘッダーにAPIキーを指定する方式で、OAuthのような複雑なフローは不要だ。elevenlabs.ioでAPIキーを取得し、ヘッダーに設定するだけで接続できる。
エージェントでのElevenLabs活用ユースケース
- 音声回答エージェント: テキスト回答を
POST /v1/text-to-speech/{voice_id}で音声化し、ユーザーに音声で返答する - 多言語対応:
eleven_multilingual_v2モデルで日本語を含む多言語テキストを自然な音声に変換 - 長文ストリーミング: 長い回答は
/text-to-speech/{voice_id}/streamエンドポイントでストリーミング処理 - 音声クローン: Professionalプランでは1分以上のオーディオサンプルからカスタム音声を生成可能
ElevenLabsの利用量はすべてのエンドポイントで「文字数(characters)」単位で計測される。Freeプランは月10,000文字、Starterプランは月30,000文字が上限(✅ ElevenLabs公式ドキュメントで確認済み)。エージェントがTTSを多用するユースケースでは、GET /v1/user/subscriptionでクォータを定期確認する実装を推奨。
Langfuse — AAA: LLMObs最速78ms・エージェントの「自己観察」基盤
Langfuse
AAA Trust Score 0.80LangfuseはLLMエージェントの観察基盤(LLMObs)として最も注目度の高いオープンソースプラットフォームだ。トレース・プロンプト管理・評価スコアリング・データセット管理を提供し、エージェント開発チームがモデルの品質と挙動を継続的に監視するためのインフラとなる。
平均レイテンシ78msはAI/MLカテゴリ内で最速だ。これはLangfuseのAPIが計装(instrumentation)用途——すなわち大量の観測データを素早く受け取ることを設計目標としているためと考えられる。
特に興味深いのは「エージェントによるエージェントの自己観察」というユースケースだ。エージェントがLangfuse MCPを通じて自分自身の過去のトレースを読み取り、「前回のタスクでどのプロンプトが最も効率的だったか」「コスト超過はどのステップで発生したか」を自律的に分析できる。これはエージェントの自己改善ループを可能にする重要な能力だ。
OpenAI・Google AI・Perplexity・Mistral・Cohere — LLM APIの格付け比較
このグループはいずれもAPI onlyでMCPサーバーは持たないが、エージェントがLLMサブタスクを委任するための重要なインフラサービスだ。
OpenAI API — AAA: 最広範な互換性、500msレイテンシ
OpenAI APIはGPT-4o・DALL-E・Whisper・Embeddingsを含む最も広く使われているLLM APIだ。エージェントフレームワークの多くがOpenAI互換フォーマットをデファクトスタンダードとして採用しているため、接続の難易度が最も低い。KanseiLink実測では平均レイテンシ500ms(推論時間含む)を記録している(成功率は観測中)。
Perplexity — AAA: 検索統合LLM、引用トークン課金廃止
PerplexityはリアルタイムWeb検索を組み込んだ検索拡張LLM APIだ。エージェントが最新情報を必要とするタスクで特に有効で、Sonar・Sonar ProモデルはOpenAI互換フォーマットで呼び出せる。重要な2026年の変更として、引用トークン(citations)がStandard Sonar・Sonar Proモデルで課金対象外になった(✅ Perplexity公式ドキュメントで確認済み)。検索結果の引用が含まれる回答のコストが実質下がっている。
Mistral AI — AA: EUデータ主権とGDPR対応、最安プレミアムAIチャット
Mistral AIはフランス発のAIラボで、EU内でのデータ処理を保証する欧州データ主権オプションを提供する。日本企業にとって「EU圏内データ処理」は直接的な要件ではないが、GDPR準拠が求められるグローバル展開では有力な選択肢だ。Le Chat Proは月$14.99と主要AIチャットサブスクリプションの中で最安値クラスを維持している(✅ 2026年価格確認済み)。
Cohere — AA: エンタープライズRAGの専門家
CohereはCommandモデル(生成)、Embed(埋め込み)、Rerank(再ランキング)を組み合わせたエンタープライズRAGパイプラインに特化したAIプラットフォームだ。エージェントが社内ドキュメントを検索・回答するRAGユースケースでは、Cohereのリランキング機能がRetrieval精度を大きく向上させる。
Groq — AAA格付けだがサンプル2件で観測中: 超高速推論のデータの読み方
Groq
AAA ⚠️ サンプル2件のみ・成功率は観測中GroqはAAAグレードを持つが、KanseiLinkの初期データはサンプル数が2件のみ(confidence_score 0.3)で、成功率を語れる段階にない。うち1件がinvalid_inputエラーの失敗として報告されているが、これはGroqのサービス品質の問題というよりもAPIパラメータの設定ミスと推測される。
Groqの技術的強みは独自開発のLPU(Language Processing Unit)ハードウェアによる超高速推論だ。Llama 3 70Bで約280トークン/秒という推論速度は主要LLMプロバイダーの中でも突出している(✅ Groq速度確認済み)。価格はLlama 8Bで入力$0.05/M・Llama 70Bで入力$0.59/Mと、速度対コストバランスが優れている。
Groqのユースケースはリアルタイムレスポンスかつコスト効率が求められるサブタスク——例えばユーザーとのチャット中に短い判断を行うような場面——に最も適している。現時点ではサンプル不足で断言はできないため、本番導入前に十分なインテグレーションテストを推奨する。
Hugging Face・Pinecone — MCPはあるが実績データなし
Hugging FaceとPineconeはともにAAAグレードを持ち、サードパーティMCPサーバーが存在するが、KanseiLinkには現時点でエージェント実績データがない。
- Hugging Face (
npx -y @huggingface/mcp-server): 数十万のオープンソースモデルへのアクセスを提供するハブ。特定のモデルを試験的に使うエージェント開発では有力だが、Inference APIのレイテンシはホスティング形態によって大きく異なる。 - Pinecone (
npx -y @pinecone-database/mcp): マネージドベクターデータベース。RAGパイプラインの検索層として広く採用されており、エージェントが意味検索を行うインフラとして重要な位置を占める。
両サービスについては、実績データが蓄積された段階で格付けを更新する予定だ。
AI/MLカテゴリの総括: エージェントネイティブ設計の優位性
AI/MLカテゴリから見えてくる最も重要なパターンは「エージェント開発者向けに設計されたサービスはAEO格付けが高い」という事実だ。
公式MCPサーバー保有(2件): ElevenLabs(88ms)、Langfuse(78ms)——どちらもレイテンシ実測が優秀(成功率は観測中)。開発者向けサービスが認証・接続の摩擦を最小化した設計を持つことを示す。
AAA・API only(5件): OpenAI・Perplexity・Google AI・Groq・Hugging Face——最高格付けだが、MCP統合はエコシステム依存。Groqの初期データはサンプル不足(n=2・観測中)であり、サービス品質は断定できない。
AA・API only(2件): Cohere・Mistral——それぞれエンタープライズRAGとEUデータ主権という明確な差別化を持つ。汎用LLMではなく特定ユースケースでの選択肢。
サードパーティMCP(2件): Pinecone・Hugging Face——MCPサーバーは存在するが実績データなし。先行投資的な採用には注意が必要。
AI/MLカテゴリは「エージェントのためのインフラ」という性質上、他カテゴリよりも速くMCP対応が進んでいる。しかし高格付けとMCPの存在は「すぐに本番で使える」を意味しない。GroqのようにAAAでも実測サンプルが少ない場合は、自社のユースケースでのテストが不可欠だ。
本記事のAEO格付けはKanseiLinkの評価と初期データに基づきます。Groqの初期データはサンプル数2件(confidence_score 0.3)のみであり、成功率を断定できる統計的信頼性はありません。ElevenLabsの文字クォータ・Perplexityの引用課金廃止・Mistralの価格情報はそれぞれの公式ドキュメントで確認済みの情報です。本記事は2026年4月15日時点の情報に基づいており、価格・仕様は変更される場合があります。