LiveFMBench: 仕様生成におけるエージェントワークフローの能力と限界 LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation
AI要約 形式手法における仕様生成タスク向けの新ベンチマークLiveFMBenchを提案。エージェント型LLMワークフローの性能と限界を評価し、複雑な仕様の自動生成における課題を明らかにした。
EN This paper introduces LiveFMBench, a benchmark for evaluating agentic LLM workflows on formal specification generation, revealing both the capabilities and limitations of current agent-based approaches in producing complex specifications.
og