MMSkills: 汎用ビジュアルエージェント向けマルチモーダルスキル MMSkills: Towards Multimodal Skills for General Visual Agents
AI要約 MMSkillsは、汎用ビジュアルエージェントが多様な視覚タスクを遂行するために必要なマルチモーダルスキルの体系化を目指す研究である。視覚理解・推論・操作を統合的に扱うフレームワークを提案し、汎用性の高いエージェント構築への道筋を示す。
EN arXiv:2605.13527v2 Announce Type: replace Abstract: Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily a