DeployBench:研究成果物のデプロイメントにおけるLLMエージェントのベンチマーク DeployBench: Benchmarking LLM Agents for Research Artifact Deployment
重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月5日 Published Jun 5
AI要約 LLMエージェントが研究成果物をゼロから動作させる能力を評価するベンチマーク「DeployBench」を提案。既存のSE・ML研究ベンチマークが見落としていた環境構築能力を測定する。
EN DeployBench benchmarks LLM agents on deploying research artifacts from scratch, addressing a gap where prior SE and ML benchmarks assume pre-configured working environments.
fallback