Home›Papers / Benchmarks›DeployBench：研究成果物のデプロイメントにおけるLLMエージェントのベンチマーク

Papers / Benchmarks ⚠ 古い情報の可能性

DeployBench：研究成果物のデプロイメントにおけるLLMエージェントのベンチマーク DeployBench: Benchmarking LLM Agents for Research Artifact Deployment

arXiv cs.SE · arxiv.org · 2026/06/05 13:00 · 3w ago · 📖 1 min

元記事を読む古い情報の可能性

AI 3 行サマリ

LLMエージェントが研究成果物をゼロから動作させる能力を評価するベンチマーク「DeployBench」を提案。
既存のSE・ML研究ベンチマークが見落としていた環境構築能力を測定する。

English summary

DeployBench benchmarks LLM agents on deploying research artifacts from scratch, addressing a gap where prior SE and ML benchmarks assume pre-configured working environments.

※ この記事の本文は近日中に AI が生成して差し替わります。現時点では上記サマリをご参照ください。

#arxiv #paper #llm-agents #benchmarking #software-engineering #reproducibility #deployment #ml-research

SourcearXiv cs.SET1
Source Avg ★ 2.0
Type論文
Importance ★ 通常 (top 94% in Papers / Benchmarks)
Half-life 🏛️ 長期 (アーキテクチャ)
LangEN
Collected2026/06/06 04:00

元記事を読む

arxiv.org

本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。

🔬 Papers / Benchmarks の他の記事もっと見る →

科学者のように考える？LLMが生成する研究手法の構造的研究

arxiv-cs-cl 20h ago

深く考えるべき時を知る：LLM推論のための抑制的熟考

arxiv-cs-cl 2w ago

彼らはどこまでやったのか？中断されたフィールド実験における秘密LLMエージェントの説得戦術

arxiv-cs-ai 3w ago

BitsMoE: スペクトルエネルギーを活用したMoE LLMの効率的ビット割り当て量子化

arxiv-cs-lg 3w ago

LLMと人間のEEGに共通する感情価軸「彩度規則性」の発見

arxiv-cs-lg 3w ago

一般化レイリー商最適化による基盤モデルの能力保持型ファインチューニング

arxiv-cs-lg 3w ago

URL をコピーしました