MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

MMSkills:面向通用视觉智能体的多模态技能

阅读原文 ↗

MMSkills 提出了一种多模态程序性知识框架,使视觉智能体能够通过结合文本、状态卡片和视觉关键帧的结构化表示,利用外部可复用技能,从而在复杂环境中改进决策。该框架包括技能包表示、生成和使用三个部分,并在 GUI 和游戏基准测试中持续提升了前沿和较小规模的多模态智能体性能。


核心要点

  1. 多模态技能包(MMSkill)包含文本过程、运行时状态卡片和多视角关键帧,是一种紧凑的状态条件化包。
  2. 通过智能体轨迹到技能生成器(Agentic Trajectory-to-Skill Generator)从公开非评估轨迹中自动生成多模态技能,包括工作流分组、过程归纳、视觉定位和元技能引导审计。
  3. 分支加载多模态技能智能体(Branch-loaded Multimodal Skill Agent)在临时分支中检查选中的状态卡片和关键帧,与实时环境对齐,并提炼为结构化指导供主智能体使用。
  4. 在 GUI 和基于游戏的视觉智能体基准测试中,MMSkills 一致提升了前沿和较小规模的多模态智能体性能。
  5. 外部多模态程序性知识能够补充模型内部先验知识,提升视觉智能体的运行时决策能力。

正文

原始摘要

可复用技能已成为提升智能体能力的核心基础,然而现有的大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习到的例程。但对于视觉智能体而言,程序性知识本质上是多模态的:复用不仅取决于执行什么操作,还取决于识别相关状态、解释进展或失败的视觉证据,以及决定下一步做什么。我们将这一需求形式化为多模态程序性知识,并解决三个实际挑战:(I)多模态技能包应包含什么;(II)这些包可以从公共交互经验中从何处获得;(III)智能体如何在推理时咨询多模态证据,而无需过多的图像上下文或过度锚定于参考截图。我们引入了 MMSkills,这是一个用于表示、生成和使用可复用多模态程序以进行运行时视觉决策的框架。每个 MMSkill 是一个紧凑的状态条件化包,将文本过程与运行时状态卡片和多视角关键帧相结合。为了构建这些包,我们开发了一个智能体轨迹到技能生成器,通过工作流分组、过程归纳、视觉定位和元技能引导审计,将公开的非评估轨迹转换为可复用的多模态技能。为了使用它们,我们引入了一个分支加载多模态技能智能体:在临时分支中检查选中的状态卡片和关键帧,与实时环境对齐,并提炼为结构化指导供主智能体使用。在 GUI 和基于游戏的视觉智能体基准测试中的实验表明,MMSkills 一致提升了前沿和较小规模的多模态智能体,表明外部多模态程序性知识能够补充模型内部先验知识。


关联概念

  • 多模态程序性知识
  • 视觉智能体
  • 技能包
  • 状态条件化包
  • 视觉定位
  • 智能体轨迹到技能生成器
  • 分支加载多模态技能智能体
  • 运行时视觉决策

可操作项

可以尝试使用 MMSkills 框架从公开的智能体交互轨迹(如 GUI 操作日志或游戏回放)中提取多模态技能包,并集成到现有的视觉智能体系统中,以提升其在复杂环境中的决策能力。具体步骤包括:1) 收集非评估轨迹数据;2) 使用轨迹到技能生成器进行工作流分组和过程归纳;3) 进行视觉定位和元技能审计;4) 在智能体运行时加载技能包,通过分支检查状态卡片和关键帧来指导决策。


原文: MMSkills: Towards Multimodal Skills for General Visual Agents
自动加工于 2026-05-19 05:53

#多模态智能体#技能复用#视觉决策

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

Flash-GRPO:通过单步策略优化实现视频扩散的高效对齐

Flash-GRPO 是一种单步训练框架,通过等时分组和时间梯度修正,在低计算预算下实现视频扩散模型的高效对齐,显著提升训练效率。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

赫尔德策略优化

赫尔德策略优化(HölderPO)提出一种通用框架,通过Hölder均值统一token级概率聚合,解决了GRPO中固定聚合机制导致的训练崩溃与性能权衡问题,在多个数学基准上平均准确率达54.9%。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

InsightTok:在自回归图像生成的离散分词中提升文本与面部保真度

InsightTok 是一种改进的离散视觉标记化框架,通过引入内容感知的感知损失,显著提升了文本和面部的重建质量,并有效迁移至自回归图像生成任务。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

大规模多智能体路径规划中的局部通信学习

本文提出LC-MAPF预训练模型,通过可学习的局部通信模块实现相邻智能体多轮特征共享,提升多智能体路径规划协调能力。实验在多种未见场景中优于现有强化学习和模仿学习方法,且保持可扩展性。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA