PhysBrain 1.0 利用人类自我中心视频生成物理常识监督信号,用于视觉-语言-动作模型。通过数据引擎提取场景元素、空间动态、动作执行和深度感知关系,转化为问答监督训练 VLM,再通过能力保持和语言敏感适配迁移到 VLA 策略。在 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa 等基准上达到 SOTA,尤其在 SimplerEnv 上展现出强大的域外性能。
核心要点
- 利用大规模人类自我中心视频生成结构化物理常识监督,弥补机器人轨迹数据覆盖不足。
- 数据引擎提取场景元素、空间动态、动作执行和深度感知关系,转化为问答监督。
- 通过能力保持和语言敏感适配设计,将物理先验迁移到 VLA 策略。
- 在 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa 等基准上达到 SOTA。
- 在 SimplerEnv 上展现出强大的域外性能,表明从人类交互视频扩展物理常识可有效桥接多模态理解与机器人动作。
正文
原始摘要
视觉-语言-动作模型发展迅速,但仅靠机器人轨迹数据在学习广泛物理理解方面覆盖有限。PhysBrain 1.0 研究了一种互补路径:在机器人适配之前,将大规模人类自我中心视频转化为结构化物理常识监督。我们的数据引擎提取场景元素、空间动态、动作执行和深度感知关系,然后将其转化为问答监督,用于训练 PhysBrain VLM。得到的物理先验进一步通过能力保持和语言敏感适配设计迁移到 VLA 策略。在多模态问答基准和具身控制基准(包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa)上,PhysBrain 1.0 达到了 SOTA 结果,并在 SimplerEnv 上展现出特别强的域外性能。这些结果表明,从人类交互视频扩展物理常识可以为从多模态理解到机器人动作提供有效的桥梁。
关联概念
- 视觉-语言-动作模型 (VLA)
- 物理常识监督
- 自我中心视频
- 具身控制
- 多模态问答
原文: PhysBrain 1.0 Technical Report
自动加工于 2026-05-19 05:53