#ml-research — TECH Dashboard

paper research 3w ago ·

arxiv-cs-se

DeployBench：研究成果物のデプロイメントにおけるLLMエージェントのベンチマーク DeployBench: Benchmarking LLM Agents for Research Artifact Deployment

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月5日 Published Jun 5

AI要約 LLMエージェントが研究成果物をゼロから動作させる能力を評価するベンチマーク「DeployBench」を提案。既存のSE・ML研究ベンチマークが見落としていた環境構築能力を測定する。

EN DeployBench benchmarks LLM agents on deploying research artifacts from scratch, addressing a gap where prior SE and ML benchmarks assume pre-configured working environments.

#arxiv #paper #llm-agents +5

arxiv.org →

fallback

#ml-research 1 total

Entries page 1/1 · 1 total

DeployBench：研究成果物のデプロイメントにおけるLLMエージェントのベンチマーク DeployBench: Benchmarking LLM Agents for Research Artifact Deployment