Claude・GPT・Gemini は同じ API でも違う使い方をする — Agent DNA を観測する MCP 設計 Claude・GPT・Gemini は同じ API でも違う使い方をする — Agent DNA を観測する MCP 設計
「LLM はどれも同じ」という前提が崩れる KanseiLink は MCP サーバーとして 150+ サービスを束ねる「インテリジェンス層」だが、運用を始めて一番驚いたのは同じ API を Claude と GPT と Gemini に叩
「LLM はどれも同じ API を叩けば同じように動く」という前提は、実運用の前では崩れやすい。KanseiLink が MCP サーバーとして 150 以上のサービスを束ねながら複数モデルの挙動を観測した結果、Claude・GPT・Gemini のそれぞれが同一エンドポイントに対して異なるツール呼び出しパターンを持つことが浮かび上がってきた。
MCP(Model Context Protocol)は Anthropic が策定したオープン仕様で、LLM エージェントが外部ツールやデータソースと標準的なインターフェイスを通じて接続するための枠組みだ。単一の MCP サーバーを用意すれば、理論上はどのモデルからも同様に利用できる。しかし KanseiLink の知見によると、現実はそう単純ではない。Claude はツールを積極的に連鎖呼び出しする傾向があり、GPT は比較的シンプルな一回完結型の呼び出しを好む傾向が見られ、Gemini はコンテキスト解釈の幅が広い一方でツール選択の揺らぎが大きいという観察が報告されている。
こうした差異は「Agent DNA」と呼ばれ、各モデルの訓練データや RLHF の方針、ツール利用に関するファインチューニングの違いに起因すると考えられる。同じプロンプトを与えても、どのモデルが受け取るかによって MCP サーバー側で発生するリクエストの構造やタイミングが変わるため、サーバー設計にはモデル非依存の堅牢性が求められる。
KanseiLink が提唱するのは、ツールのスキーマ設計・エラーハンドリング・レスポンス構造をモデル横断で観測しながら段階的に最適化する手法だ。具体的には、呼び出しログからモデルごとのパターンを抽出し、スキーマの説明文やデフォルト値をモデル特性に合わせて調整することで、エージェントの精度を高める試みが行われている。
周辺動向として、OpenAI も独自のツール呼び出し仕様を持ち、Gemini は Google の Function Calling 仕様を拡張してきた経緯がある。MCP がデファクトスタンダードとして普及するにつれ、各社モデルの MCP 適合度の差が実務上の選定基準になっていく可能性がある。また、モデルのバージョンアップごとに挙動が変化するため、Agent DNA の観測は一度きりではなく継続的なモニタリングとして設計する必要がある点も、この記事が示唆する重要な教訓といえる。
マルチモデル環境でのエージェント運用が一般化しつつある今、「どのモデルでも同じ」という楽観的な仮定を捨て、モデル固有の挙動を前提とした MCP 設計が競争優位につながる時代が来ていると見られる。
The assumption that any LLM will behave identically when pointed at the same API tends to fall apart under real-world conditions. KanseiLink, an intelligence layer that aggregates over 150 services through a single MCP server, has been collecting behavioral data across Claude, GPT, and Gemini — and what it found challenges a comforting but overly simple premise: that models are interchangeable at the tool-calling layer.
The Model Context Protocol (MCP), an open specification introduced by Anthropic, defines a standard interface through which LLM agents connect to external tools and data sources. In principle, a well-built MCP server should work uniformly regardless of which model is on the other end. In practice, KanseiLink's operational observations tell a different story. Claude tends toward aggressive, chained tool invocations — sequencing multiple calls to build up context before responding. GPT favors more discrete, single-shot calls. Gemini demonstrates broader contextual interpretation but introduces more variance in which tool it selects for a given intent.
KanseiLink refers to these behavioral signatures as "Agent DNA" — patterns that appear to stem from differences in training data composition, RLHF tuning objectives, and how each provider has approached tool-use fine-tuning. Because the same prompt can generate structurally different request sequences depending on the receiving model, MCP server design cannot assume a uniform calling pattern. Schemas, error handling, and response structures all need to be robust to a wider range of inputs than a single-model deployment would require.
The design approach KanseiLink advocates involves continuous observation of per-model calling logs, extraction of behavioral patterns, and iterative refinement of tool schemas — including natural-language descriptions and default values — to better align with each model's tendencies. This is less a one-time configuration task and more an ongoing monitoring discipline, since model versions change and Agent DNA shifts with each update.
The broader context matters here. OpenAI has its own function-calling specification, and Google has steadily evolved its Function Calling API for Gemini. As MCP gains traction as a potential cross-vendor standard, the degree to which each model faithfully and consistently implements MCP semantics may become a practical selection criterion for teams building multi-agent systems. Early adopters of MCP infrastructure like KanseiLink are in a position to accumulate the kind of empirical behavioral data that could meaningfully inform those decisions.
For engineers building agentic systems today, the takeaway is straightforward but underappreciated: treat model selection as an architectural variable, not just a swap-in parameter. Designing MCP servers that observe, adapt to, and remain resilient against model-specific tool-calling behavior is likely to become a quiet but significant differentiator as multi-model agent deployments become the norm.
本ページの本文・要約は AI による自動生成です。正確性は元記事 (zenn.dev) をご確認ください。