VeriContest: 検証可能なコード生成のための競技プログラミングベンチマーク VeriContest: A Competitive-Programming Benchmark for Verifiable Code Generation
AI要約 VeriContestは、競技プログラミング問題を題材に、LLMが生成するコードの形式的検証可能性を評価する新しいベンチマークである。実行ベースのテストではなく、仕様との整合性を検証することで、より厳密にLLMのコード生成能力を測定する。
EN VeriContest is a new benchmark that evaluates LLMs' verifiable code generation using competitive programming problems, measuring formal correctness against specifications rather than relying on test execution alone.
og