MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

StableVLA:无需额外数据构建鲁棒的视觉-语言-动作模型

阅读原文 ↗

本文系统研究了视觉-语言-动作(VLA)模型在遇到训练数据中未出现的视觉干扰时的性能下降问题。为解决该问题,提出了一种基于信息论的轻量级适配器模块——信息瓶颈适配器(IB-Adapter),该模块能选择性过滤视觉输入中的潜在噪声。无需额外数据或数据增强策略,IB-Adapter 在仅增加不到 1000 万参数的情况下,平均性能提升 30%。基于此构建的 StableVLA 模型,即使使用小 14 倍的骨干网络(0.5B 参数)且未在 Open X-Embodiment 数据集上预训练,其鲁棒性也能与 7B 规模的先进 VLA 模型相媲美。该方法在长时任务上保持准确率,并在合成和物理视觉损坏场景下均超越 OpenPi。


核心要点

  1. VLA 模型在遇到训练数据中未见的视觉干扰时性能显著下降。
  2. 提出信息瓶颈适配器(IB-Adapter),基于信息论选择性过滤视觉噪声。
  3. IB-Adapter 无需额外数据或数据增强,仅增加 <10M 参数,平均性能提升 30%。
  4. StableVLA 使用 0.5B 骨干网络(比 7B 模型小 14 倍),鲁棒性与 7B 级先进 VLA 模型竞争。
  5. 在长时任务上保持准确率,在合成和物理视觉损坏下均超越 OpenPi。

正文

在训练数据中涵盖所有可能的干扰是不现实的。这引发了一个关键问题:当视觉-语言-动作(VLA)模型遇到未见过的真实世界视觉干扰时,尤其是在不完美的视觉条件下,其鲁棒性如何?本文基于近期最先进的 VLA 模型进行了系统研究,发现当引入训练数据中未出现的视觉干扰时,模型性能显著下降。为缓解这一问题,我们提出了一种基于信息论的轻量级适配器模块,称为信息瓶颈适配器(IB-Adapter),该模块能选择性过滤视觉输入中的潜在噪声。无需任何额外数据或数据增强策略,IB-Adapter 在仅增加不到 1000 万参数的情况下,平均性能提升 30%,展现出显著的效率和有效性。此外,即使使用小 14 倍的骨干网络(0.5B 参数)且未在 Open X-Embodiment 数据集上预训练,我们的模型 StableVLA 也能达到与 7B 规模先进 VLA 模型相竞争的鲁棒性。在参数开销可忽略不计(<10M)的情况下,我们的方法在长时任务上保持准确率,并在合成和物理视觉损坏场景下均超越 OpenPi。

方法

信息瓶颈适配器(IB-Adapter)

IB-Adapter 的核心思想源于信息瓶颈理论,旨在从视觉输入中提取与任务最相关的信息,同时抑制噪声。该模块作为一个轻量级适配器,插入到 VLA 模型的视觉编码器之后,通过优化一个信息论目标函数来学习一个压缩表示,该表示在保留任务相关信息的同时最小化与输入噪声的互信息。

模型架构

StableVLA 采用了一个较小的骨干网络(0.5B 参数),并移除了对 Open X-Embodiment 数据集的预训练依赖。通过 IB-Adapter 的引入,模型在保持参数高效的同时,显著提升了在多种视觉干扰下的鲁棒性。

实验

实验在多种视觉干扰条件下进行,包括合成噪声(如高斯噪声、模糊)和物理损坏(如遮挡、光照变化)。结果表明: - 基线 VLA 模型在未见干扰下性能下降严重。 - IB-Adapter 平均提升性能 30%,且参数增加少于 10M。 - StableVLA(0.5B)在鲁棒性上与 7B 级模型竞争。 - 在长时任务中,StableVLA 保持准确率,并超越 OpenPi。


关联概念

  • 视觉-语言-动作模型 (VLA)
  • 信息瓶颈理论
  • 适配器模块
  • 参数高效微调
  • 鲁棒性

可操作项

对于希望提升 VLA 模型鲁棒性的开发者,可以尝试以下实践:1) 在现有 VLA 模型的视觉编码器后插入 IB-Adapter 模块;2) 使用信息瓶颈目标函数进行微调,无需额外数据或数据增强;3) 评估模型在合成和物理视觉干扰下的性能,并与基线对比。


原文: StableVLA: Towards Robust Vision-Language-Action Models without Extra Data
自动加工于 2026-05-20 11:29

#VLA#鲁棒性#信息瓶颈#适配器

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA