LongDS-Bench:長期的なエージェント型データ分析が失敗する理由を検証 LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1
AI要約 LongDS-Benchは、現実のデータ分析が持つ反復的・長期的な性質を再現した新しいベンチマーク。既存の評価手法では捉えられなかったAIエージェントの弱点を体系的に明らかにする研究成果。
EN arXiv:2605.30434v1 Announce Type: new Abstract: Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability t
fallback