Verus-SpecGym: 仕様の自動形式化を評価するエージェント環境 Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization
重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27
AI要約 AIコーディングエージェントの出力の正しさを保証するため、仕様の自動形式化を評価するベンチマーク環境Verus-SpecGymを提案した研究論文。
EN Verus-SpecGym is a new agentic benchmark environment for evaluating how well AI agents can autoformalize software specifications, addressing correctness challenges in AI-generated code.
fallback