谷歌Genie世界模型现可通过街景模拟真实街道

谷歌DeepMind将街景数据集成到其通用世界模型Genie中，允许用户从文本或图像生成交互式3D环境，并模拟天气、视角变化等。该技术已用于Waymo自动驾驶训练，但仍是实验性产品，精度和物理模拟有待提升。

核心要点

谷歌DeepMind将街景数据集成到Genie世界模型，支持从真实地点生成交互式模拟环境。
Genie 3已用于Waymo自动驾驶训练，模拟罕见事件（如龙卷风、大象）。
街景数据覆盖110个国家、2800亿张图像，可模拟不同天气和视角。
当前模型精度为视频游戏级别，非照片级真实，且缺乏物理感知（如物体穿透）。
研究人员预计6-12个月内提升精度和物理模拟能力。

正文

我们都有过在谷歌地图上打开街景，向朋友展示童年故居，或把小人图标拖到巴黎街头查看酒店周边环境的经历。想象一下，如果能以更沉浸、更互动的方式模拟街道及其环境，甚至调整天气或模拟“后天”场景，会是什么样子？

这正是谷歌最新集成的目标之一。从今天开始，谷歌DeepMind将街景连接到其通用世界模型Project Genie，该模型能生成多样化的交互式环境。这项新功能在Google I/O 2026开发者大会上发布。

“这对智能体和机器人用例以及人类互动都非常强大，这始终是Genie的核心理念，”DeepMind开放团队研究科学家Jack Parker-Holder告诉TechCrunch。他举例说，在伦敦部署的新机器人很少见到阳光。Genie可以模拟那些罕见的阳光照射维多利亚式房屋的时刻，这样当阳光出现时，机器人就不会被吓到。

“同时，你可能会说，‘我要去纽约市，但不是这个季节，’他继续说道，‘那里会下雪。我想看看那个街区在雪中的样子。’”

谷歌通过车载摄像头和佩戴“追踪背包”的个人收集街景数据已有20年。这家科技巨头已在110个国家和七大洲收集了超过2800亿张图像。

“通过街景，我们拥有全球大量地区的图像，”Jack说。“你可以想象，将这种丰富的现实世界信息和数据与模拟世界的能力结合起来，潜力有多大。”

谷歌去年8月发布了最新世界模型Genie 3的研究预览版，并于1月向美国Google AI Ultra订阅用户开放了该工具，允许用户通过文本提示或图像创建交互式游戏世界。目标是利用Genie进行教育体验、游戏和机器人训练。

Genie 3已用于支持Waymo的一个模拟器，训练其自动驾驶汽车应对“极其罕见的事件”，如龙卷风或偶遇大象。将街景数据加入其中，有助于Waymo为在全球更多城市推出做准备。

Waymo有自己的模拟器，依靠它扩展到11个美国城市，并在更多城市测试其AI驾驶员。Parker-Holder表示，与Genie的区别在于，这些模拟器都是从汽车视角出发。而街景不仅允许模拟锚定于真实地点的世界，还能将视角切换到其他类型的智能体，如人类或机器人。

谷歌从今天开始向部分美国Ultra用户推出Genie中的街景功能，并逐步扩大访问范围。据公司称，全球Ultra用户将在未来几周内获得访问权限。

DeepMind产品经理Diego Rivas表示，研究人员的目标是让尽可能多的人使用这项新功能。他提醒说，街景和Genie整体上仍是一个实验，因此在准确性方面还有很多改进空间。

在谷歌团队向我展示的样本中——包括我过去居住的社区的水下模拟——结果令人印象深刻且可识别，但仍是视频游戏质量，而非照片级真实。模型也尚未具备物理感知，即它们还不理解因果关系。例如，在一个女子在雪中约书亚树奔跑的模拟中，她直接穿过了仙人掌和灌木丛。

相比之下，谷歌的图像生成器Nano Banana（现在能在信息图中生成完美文本）或视频生成器Veo（理解纸船随水流漂动、烟雾扩散、布料覆盖物体）则更先进。

物理规则并非硬编码到这些模型中；它们通过被动观察随时间直觉地学习，就像生物一样。

“我认为对于这类模型，在准确性和质量方面可能落后视频6到12个月，所以我认为这是我们可以解决的问题，”Parker-Holder说。

谷歌地图总监Jonathan Herbert（12年前作为实习生加入街景团队）表示，Genie目前还无法创建街道的忠实重建。他认为真正的突破在于AI的空间连续性。如果你旋转360度，AI能正确记住并模拟你身后的环境。从那时起，模型可以在其基础上构建新环境。

“我们一直在思考如何利用街景数据构建最好、最丰富的世界模型，”Herbert说。“以新方式使用地图数据并用于新型AI应用，一直是我们的想法。”

关联概念

世界模型
街景
Genie
Waymo
自动驾驶模拟

原文: Google’s Genie world model can now simulate real streets with Street View
自动加工于 2026-05-20 11:34

核心要点

正文

关联概念

更多 AI·模型 文章

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

OpenAI声称解决了80年数学难题——这次是真的

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

OScaR：面向LLM及更广领域的极端KV缓存量化的奥卡姆剃刀

更多 AI·模型文章