HomeTags#visual-agents

#visual-agents page 1/1 · 1 total

TODAY 1 entries
NEW paper research 8h ago · arxiv-cs-ai

MMSkills: 汎用ビジュアルエージェント向けマルチモーダルスキル MMSkills: Towards Multimodal Skills for General Visual Agents

AI要約 MMSkillsは、汎用ビジュアルエージェントが多様な視覚タスクを遂行するために必要なマルチモーダルスキルの体系化を目指す研究である。視覚理解・推論・操作を統合的に扱うフレームワークを提案し、汎用性の高いエージェント構築への道筋を示す。

EN arXiv:2605.13527v2 Announce Type: replace Abstract: Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily a

arxiv.org