AuditRepairBench: エージェント修復における評価チャネル順位不安定性のためのペア実行トレースコーパス AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair
AI 3 行サマリ
- エージェント修復タスクにおける評価器(Evaluator)チャネルのランキング不安定性を検証するため、ペアになった実行トレースのコーパスAuditRepairBenchを提案。
- 評価チャネル間の順位ばらつきを定量化し、修復評価の信頼性を分析する。
English summary
- AuditRepairBench introduces a paired-execution trace corpus designed to study evaluator-channel ranking instability in agent repair tasks, quantifying inconsistencies across evaluation channels to assess repair benchmark reliability.
※ この記事の本文は近日中に AI が生成して差し替わります。現時点では上記サマリをご参照ください。
元記事を読む
arxiv.org
本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。