MMSkills：面向通用视觉智能体的多模态技能

MMSkills 提出了一种多模态程序性知识框架，使视觉智能体能够通过结合文本、状态卡片和视觉关键帧的结构化表示，利用外部可复用技能，从而在复杂环境中改进决策。该框架包括技能包表示、生成和使用三个部分，并在 GUI 和游戏基准测试中持续提升了前沿和较小规模的多模态智能体性能。

核心要点

多模态技能包（MMSkill）包含文本过程、运行时状态卡片和多视角关键帧，是一种紧凑的状态条件化包。
通过智能体轨迹到技能生成器（Agentic Trajectory-to-Skill Generator）从公开非评估轨迹中自动生成多模态技能，包括工作流分组、过程归纳、视觉定位和元技能引导审计。
分支加载多模态技能智能体（Branch-loaded Multimodal Skill Agent）在临时分支中检查选中的状态卡片和关键帧，与实时环境对齐，并提炼为结构化指导供主智能体使用。
在 GUI 和基于游戏的视觉智能体基准测试中，MMSkills 一致提升了前沿和较小规模的多模态智能体性能。
外部多模态程序性知识能够补充模型内部先验知识，提升视觉智能体的运行时决策能力。

正文

原始摘要

可复用技能已成为提升智能体能力的核心基础，然而现有的大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习到的例程。但对于视觉智能体而言，程序性知识本质上是多模态的：复用不仅取决于执行什么操作，还取决于识别相关状态、解释进展或失败的视觉证据，以及决定下一步做什么。我们将这一需求形式化为多模态程序性知识，并解决三个实际挑战：（I）多模态技能包应包含什么；（II）这些包可以从公共交互经验中从何处获得；（III）智能体如何在推理时咨询多模态证据，而无需过多的图像上下文或过度锚定于参考截图。我们引入了 MMSkills，这是一个用于表示、生成和使用可复用多模态程序以进行运行时视觉决策的框架。每个 MMSkill 是一个紧凑的状态条件化包，将文本过程与运行时状态卡片和多视角关键帧相结合。为了构建这些包，我们开发了一个智能体轨迹到技能生成器，通过工作流分组、过程归纳、视觉定位和元技能引导审计，将公开的非评估轨迹转换为可复用的多模态技能。为了使用它们，我们引入了一个分支加载多模态技能智能体：在临时分支中检查选中的状态卡片和关键帧，与实时环境对齐，并提炼为结构化指导供主智能体使用。在 GUI 和基于游戏的视觉智能体基准测试中的实验表明，MMSkills 一致提升了前沿和较小规模的多模态智能体，表明外部多模态程序性知识能够补充模型内部先验知识。

关联概念

多模态程序性知识
视觉智能体
技能包
状态条件化包
视觉定位
智能体轨迹到技能生成器
分支加载多模态技能智能体
运行时视觉决策

可操作项

可以尝试使用 MMSkills 框架从公开的智能体交互轨迹（如 GUI 操作日志或游戏回放）中提取多模态技能包，并集成到现有的视觉智能体系统中，以提升其在复杂环境中的决策能力。具体步骤包括：1) 收集非评估轨迹数据；2) 使用轨迹到技能生成器进行工作流分组和过程归纳；3) 进行视觉定位和元技能审计；4) 在智能体运行时加载技能包，通过分支检查状态卡片和关键帧来指导决策。

原文: MMSkills: Towards Multimodal Skills for General Visual Agents
自动加工于 2026-05-19 05:53

核心要点

正文

原始摘要

关联概念

可操作项

更多 AI·模型 文章

Flash-GRPO：通过单步策略优化实现视频扩散的高效对齐

赫尔德策略优化

InsightTok：在自回归图像生成的离散分词中提升文本与面部保真度

大规模多智能体路径规划中的局部通信学习

更多 AI·模型文章