HomeTags#ml-research

Tag timeline

#ml-research 1 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 1
Showing 1
Page 1/1
Updated 5h ago

Entries page 1/1 · 1 total

Fri, Jun 5 1 entries
paper research 3w ago · arxiv-cs-se

DeployBench:研究成果物のデプロイメントにおけるLLMエージェントのベンチマーク DeployBench: Benchmarking LLM Agents for Research Artifact Deployment

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月5日 Published Jun 5

AI要約 LLMエージェントが研究成果物をゼロから動作させる能力を評価するベンチマーク「DeployBench」を提案。既存のSE・ML研究ベンチマークが見落としていた環境構築能力を測定する。

EN DeployBench benchmarks LLM agents on deploying research artifacts from scratch, addressing a gap where prior SE and ML benchmarks assume pre-configured working environments.

fallback