HomeResearchTSCG: エージェントLLM向け決定論的ツールスキーマコンパイル
TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments

TSCG: エージェントLLM向け決定論的ツールスキーマコンパイル TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments

AI 3 行サマリ
  • TSCGはエージェントLLM運用におけるツールスキーマを決定論的にコンパイルする手法を提案する研究。
  • ツール呼び出しの信頼性と一貫性を高め、実運用でのエラー削減を目指す。
English summary
  • TSCG proposes a deterministic compilation approach for tool schemas in agentic LLM deployments, aiming to improve reliability and consistency of tool invocations and reduce runtime errors in production environments.

大規模言語モデル(LLM)を中核に据えたエージェントシステムでは、外部ツールやAPIをモデルが呼び出す「ツール利用(tool use)」が中心的な役割を担う。本研究TSCG(Tool-Schema Compilation for agentic deployments)は、こうしたツール呼び出しの基盤となるスキーマ定義を決定論的にコンパイルする手法を提案している。

エージェント型LLMの実運用における大きな課題のひとつが、ツール呼び出し時のスキーマ不整合や非決定論的挙動である。モデルが生成する関数引数がスキーマと一致しなかったり、同じ入力でも異なる呼び出しが発生するケースが報告されている。TSCGはツールスキーマをコンパイル段階で正規化・固定化することで、こうした揺らぎを抑制し、実行時の信頼性を高めることを狙うと見られる。

関連分野では、OpenAIのFunction CallingやAnthropicのTool Use API、さらにオープンソースのLangChainやLlamaIndexといったフレームワークが、それぞれ独自のスキーマ表現を採用している。Model Context Protocol(MCP)のような標準化の動きも進むなか、決定論性を担保するコンパイル層は、相互運用性とデバッグ容易性の両面で意義があると考えられる。本論文の手法が広く採用されるかは今後の検証次第だが、エージェント運用の実務課題に正面から取り組む方向性として注目に値する。

Agentic deployments of large language models increasingly rely on tool use, where the model invokes external APIs or functions to accomplish tasks. TSCG (Tool-Schema Compilation) addresses one of the more practical pain points in this stack: the deterministic compilation of tool schemas that govern how the model interacts with these external capabilities.

In production, agentic LLM systems frequently struggle with schema mismatches, malformed arguments, and non-deterministic invocation patterns. The same prompt and tool definition can yield subtly different call signatures across runs, complicating debugging, monitoring, and reproducibility. TSCG appears to tackle this by introducing a compilation layer that normalizes and fixes tool schemas before they are exposed to the model, reducing variance at runtime and presumably improving the rate of valid tool calls.

The broader ecosystem provides useful context. OpenAI's function calling, Anthropic's tool use API, Google's Gemini function calling, and open-source frameworks like LangChain, LlamaIndex, and Semantic Kernel each define their own schema conventions, often loosely based on JSON Schema. The recent emergence of the Model Context Protocol (MCP) from Anthropic signals a push toward standardization, but interoperability and deterministic behavior across providers remain open problems. A compilation-oriented approach like TSCG could complement these efforts by providing a uniform, deterministic representation regardless of the underlying provider.

Determinism matters not only for correctness but also for operational concerns such as caching, evaluation, and regulatory auditability. Enterprises deploying agents in regulated domains increasingly need traceable, reproducible tool invocations, and ad-hoc schema handling makes that difficult. By moving schema resolution into a compilation phase, TSCG may also enable static analysis of agent behaviors before deployment, similar to how typed languages catch errors at compile time rather than runtime.

It remains to be seen how the proposed technique compares empirically to existing validation-based approaches such as constrained decoding, grammar-based generation (e.g., outlines, guidance), or structured output modes offered natively by major LLM providers. These methods already enforce schema conformance during generation, though typically at a per-call rather than system-wide level. TSCG's contribution likely lies in shifting the locus of guarantees from inference time to a precompiled artifact, which could simplify the runtime path.

Whether TSCG sees broad adoption will depend on integration ease with popular agent frameworks and on demonstrated gains in real deployments. Still, the direction—treating tool schemas as first-class compilable artifacts rather than runtime strings—aligns with a broader maturation of the agentic LLM stack from experimental scripts toward engineered, production-grade systems.

  • SourcearXiv cs.AIT2
  • Source Avg ★ 1.0
  • Type論文
  • Importance ★ 情報 (top 100% in Research)
  • Half-life 🏛️ 長期 (アーキテクチャ)
  • LangEN
  • Collected2026/05/08 13:00

本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。

🔬 Research の他の記事 もっと見る →

LCM: Lossless Context Management
paper 1h ago
LCM: ロスレスなコンテキスト管理手法を提案する研究論文
arXivで公開された論文「LCM: Lossless Context Management」は、LLMの長文コンテキストを情報損失なく効率的に管理する手法を提案する。従来の要約や圧縮ベース手法と異なり、必要時に元情報を完全復元できる点が特徴とされる。
arxiv-cs-ai
When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration
paper 1h ago
文脈が害となる時: マルチエージェント設計探索における知識転移のクロスオーバー効果
本論文はマルチエージェント設計探索において、エージェント間で知識を共有することが必ずしも性能向上につながらず、むしろ探索効率を低下させる「クロスオーバー効果」が生じることを示す。文脈の与え方次第で知識転移が逆効果となる条件を分析している。
arxiv-cs-ai
AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair
paper 1h ago
AuditRepairBench: エージェント修復の評価チャネル順位不安定性ベンチマーク
AuditRepairBenchは、ペア実行トレースを用いてLLMエージェントのコード修復における評価器チャネル間の順位不安定性を測定する新たなコーパス。同一修復案でも評価軸により順位が大きく揺らぐ問題を体系化し、エージェント評価の信頼性向上を目指す。
arxiv-cs-ai
Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone
paper 1h ago
展開時のアラインメントはモデル単体評価では判定不能
本論文は、LLMのアラインメントをモデル単体のベンチマークで測るだけでは、実運用環境での安全性を保証できないと主張する。展開時の文脈依存性を踏まえ、システムレベルでの評価枠組みが必要だと論じている。
arxiv-cs-ai
Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning
paper 1h ago
強化ファインチューニングの失敗を自動管理する堅牢なLLM事後学習手法
本論文は強化学習によるLLM事後学習(RFT)で生じる学習失敗を自動検出・対処する枠組みを提案する。報酬崩壊や勾配不安定などの障害を監視し、リトライや調整を行うことで、RFTの安定性と最終性能を高めることを狙う。
arxiv-cs-ai
Accountable Agents in Software Engineering: An Analysis of Terms of Service and a Research Roadmap
paper 1h ago
ソフトウェア工学におけるAIエージェントの責任:利用規約分析と研究ロードマップ
本論文はソフトウェア開発に用いられるAIエージェントの「責任(アカウンタビリティ)」をテーマに、主要なAIコーディングサービスの利用規約を分析し、責任の所在に関する課題を整理する。さらに信頼できるエージェント実現に向けた研究ロードマップを提示する。
arxiv-cs-ai
URL をコピーしました