MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

PhysBrain 1.0 技术报告

阅读原文 ↗

PhysBrain 1.0 利用人类自我中心视频生成物理常识监督信号,用于视觉-语言-动作模型。通过数据引擎提取场景元素、空间动态、动作执行和深度感知关系,转化为问答监督训练 VLM,再通过能力保持和语言敏感适配迁移到 VLA 策略。在 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa 等基准上达到 SOTA,尤其在 SimplerEnv 上展现出强大的域外性能。


核心要点

  1. 利用大规模人类自我中心视频生成结构化物理常识监督,弥补机器人轨迹数据覆盖不足。
  2. 数据引擎提取场景元素、空间动态、动作执行和深度感知关系,转化为问答监督。
  3. 通过能力保持和语言敏感适配设计,将物理先验迁移到 VLA 策略。
  4. 在 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa 等基准上达到 SOTA。
  5. 在 SimplerEnv 上展现出强大的域外性能,表明从人类交互视频扩展物理常识可有效桥接多模态理解与机器人动作。

正文


原始摘要

视觉-语言-动作模型发展迅速,但仅靠机器人轨迹数据在学习广泛物理理解方面覆盖有限。PhysBrain 1.0 研究了一种互补路径:在机器人适配之前,将大规模人类自我中心视频转化为结构化物理常识监督。我们的数据引擎提取场景元素、空间动态、动作执行和深度感知关系,然后将其转化为问答监督,用于训练 PhysBrain VLM。得到的物理先验进一步通过能力保持和语言敏感适配设计迁移到 VLA 策略。在多模态问答基准和具身控制基准(包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa)上,PhysBrain 1.0 达到了 SOTA 结果,并在 SimplerEnv 上展现出特别强的域外性能。这些结果表明,从人类交互视频扩展物理常识可以为从多模态理解到机器人动作提供有效的桥梁。


关联概念

  • 视觉-语言-动作模型 (VLA)
  • 物理常识监督
  • 自我中心视频
  • 具身控制
  • 多模态问答

原文: PhysBrain 1.0 Technical Report
自动加工于 2026-05-19 05:53

#物理常识#视觉-语言-动作模型#自我中心视频

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

Flash-GRPO:通过单步策略优化实现视频扩散的高效对齐

Flash-GRPO 是一种单步训练框架,通过等时分组和时间梯度修正,在低计算预算下实现视频扩散模型的高效对齐,显著提升训练效率。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

赫尔德策略优化

赫尔德策略优化(HölderPO)提出一种通用框架,通过Hölder均值统一token级概率聚合,解决了GRPO中固定聚合机制导致的训练崩溃与性能权衡问题,在多个数学基准上平均准确率达54.9%。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

InsightTok:在自回归图像生成的离散分词中提升文本与面部保真度

InsightTok 是一种改进的离散视觉标记化框架,通过引入内容感知的感知损失,显著提升了文本和面部的重建质量,并有效迁移至自回归图像生成任务。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

大规模多智能体路径规划中的局部通信学习

本文提出LC-MAPF预训练模型,通过可学习的局部通信模块实现相邻智能体多轮特征共享,提升多智能体路径规划协调能力。实验在多种未见场景中优于现有强化学习和模仿学习方法,且保持可扩展性。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA