#formal-methods — TECH Dashboard

NEW paper research 2h ago ·

arxiv-cs-ai

LiveFMBench: 仕様生成におけるエージェントワークフローの能力と限界 LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation

AI要約形式手法における仕様生成タスク向けの新ベンチマークLiveFMBenchを提案。エージェント型LLMワークフローの性能と限界を評価し、複雑な仕様の自動生成における課題を明らかにした。

EN This paper introduces LiveFMBench, a benchmark for evaluating agentic LLM workflows on formal specification generation, revealing both the capabilities and limitations of current agent-based approaches in producing complex specifications.

#agent #arxiv #paper #formal-methods

arxiv.org →

#formal-methods page 1/1 · 1 total

LiveFMBench: 仕様生成におけるエージェントワークフローの能力と限界 LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation