AuditRepairBench: エージェント修復における評価チャネル順位不安定性のためのペア実行トレースコーパス AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair
AI要約 エージェント修復タスクにおける評価器(Evaluator)チャネルのランキング不安定性を検証するため、ペアになった実行トレースのコーパスAuditRepairBenchを提案。評価チャネル間の順位ばらつきを定量化し、修復評価の信頼性を分析する。
EN AuditRepairBench introduces a paired-execution trace corpus designed to study evaluator-channel ranking instability in agent repair tasks, quantifying inconsistencies across evaluation channels to assess repair benchmark reliability.
og