谷歌DeepMind将街景数据集成到其通用世界模型Genie中,允许用户从文本或图像生成交互式3D环境,并模拟天气、视角变化等。该技术已用于Waymo自动驾驶训练,但仍是实验性产品,精度和物理模拟有待提升。
核心要点
- 谷歌DeepMind将街景数据集成到Genie世界模型,支持从真实地点生成交互式模拟环境。
- Genie 3已用于Waymo自动驾驶训练,模拟罕见事件(如龙卷风、大象)。
- 街景数据覆盖110个国家、2800亿张图像,可模拟不同天气和视角。
- 当前模型精度为视频游戏级别,非照片级真实,且缺乏物理感知(如物体穿透)。
- 研究人员预计6-12个月内提升精度和物理模拟能力。
正文
我们都有过在谷歌地图上打开街景,向朋友展示童年故居,或把小人图标拖到巴黎街头查看酒店周边环境的经历。想象一下,如果能以更沉浸、更互动的方式模拟街道及其环境,甚至调整天气或模拟“后天”场景,会是什么样子?
这正是谷歌最新集成的目标之一。从今天开始,谷歌DeepMind将街景连接到其通用世界模型Project Genie,该模型能生成多样化的交互式环境。这项新功能在Google I/O 2026开发者大会上发布。
“这对智能体和机器人用例以及人类互动都非常强大,这始终是Genie的核心理念,”DeepMind开放团队研究科学家Jack Parker-Holder告诉TechCrunch。他举例说,在伦敦部署的新机器人很少见到阳光。Genie可以模拟那些罕见的阳光照射维多利亚式房屋的时刻,这样当阳光出现时,机器人就不会被吓到。
“同时,你可能会说,‘我要去纽约市,但不是这个季节,’他继续说道,‘那里会下雪。我想看看那个街区在雪中的样子。’”
谷歌通过车载摄像头和佩戴“追踪背包”的个人收集街景数据已有20年。这家科技巨头已在110个国家和七大洲收集了超过2800亿张图像。
“通过街景,我们拥有全球大量地区的图像,”Jack说。“你可以想象,将这种丰富的现实世界信息和数据与模拟世界的能力结合起来,潜力有多大。”
谷歌去年8月发布了最新世界模型Genie 3的研究预览版,并于1月向美国Google AI Ultra订阅用户开放了该工具,允许用户通过文本提示或图像创建交互式游戏世界。目标是利用Genie进行教育体验、游戏和机器人训练。
Genie 3已用于支持Waymo的一个模拟器,训练其自动驾驶汽车应对“极其罕见的事件”,如龙卷风或偶遇大象。将街景数据加入其中,有助于Waymo为在全球更多城市推出做准备。
Waymo有自己的模拟器,依靠它扩展到11个美国城市,并在更多城市测试其AI驾驶员。Parker-Holder表示,与Genie的区别在于,这些模拟器都是从汽车视角出发。而街景不仅允许模拟锚定于真实地点的世界,还能将视角切换到其他类型的智能体,如人类或机器人。
谷歌从今天开始向部分美国Ultra用户推出Genie中的街景功能,并逐步扩大访问范围。据公司称,全球Ultra用户将在未来几周内获得访问权限。
DeepMind产品经理Diego Rivas表示,研究人员的目标是让尽可能多的人使用这项新功能。他提醒说,街景和Genie整体上仍是一个实验,因此在准确性方面还有很多改进空间。
在谷歌团队向我展示的样本中——包括我过去居住的社区的水下模拟——结果令人印象深刻且可识别,但仍是视频游戏质量,而非照片级真实。模型也尚未具备物理感知,即它们还不理解因果关系。例如,在一个女子在雪中约书亚树奔跑的模拟中,她直接穿过了仙人掌和灌木丛。
相比之下,谷歌的图像生成器Nano Banana(现在能在信息图中生成完美文本)或视频生成器Veo(理解纸船随水流漂动、烟雾扩散、布料覆盖物体)则更先进。
物理规则并非硬编码到这些模型中;它们通过被动观察随时间直觉地学习,就像生物一样。
“我认为对于这类模型,在准确性和质量方面可能落后视频6到12个月,所以我认为这是我们可以解决的问题,”Parker-Holder说。
谷歌地图总监Jonathan Herbert(12年前作为实习生加入街景团队)表示,Genie目前还无法创建街道的忠实重建。他认为真正的突破在于AI的空间连续性。如果你旋转360度,AI能正确记住并模拟你身后的环境。从那时起,模型可以在其基础上构建新环境。
“我们一直在思考如何利用街景数据构建最好、最丰富的世界模型,”Herbert说。“以新方式使用地图数据并用于新型AI应用,一直是我们的想法。”
关联概念
- 世界模型
- 街景
- Genie
- Waymo
- 自动驾驶模拟
原文: Google’s Genie world model can now simulate real streets with Street View
自动加工于 2026-05-20 11:34