StableVLA:无需额外数据构建鲁棒的视觉-语言-动作模型
本文提出信息瓶颈适配器(IB-Adapter),无需额外数据即可增强VLA模型对视觉干扰的鲁棒性,仅增加不到100个参数。
找到 2 篇包含 "VLA" 的文章
本文提出信息瓶颈适配器(IB-Adapter),无需额外数据即可增强VLA模型对视觉干扰的鲁棒性,仅增加不到100个参数。
PhysBrain 1.0 技术报告提出利用人类自我中心视频生成物理常识监督信号,用于训练视觉-语言-动作模型,通过数据引擎提取场景元素、空间动态等关系,转化为问答监督训练 VLM,并迁移到 VLA 策略。