MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 TechCrunch 2026-05-20 1 min read ★ ★ ★ ★ ☆

谷歌Genie世界模型现可通过街景模拟真实街道

阅读原文 ↗

谷歌DeepMind将街景数据集成到其通用世界模型Genie中,允许用户从文本或图像生成交互式3D环境,并模拟天气、视角变化等。该技术已用于Waymo自动驾驶训练,但仍是实验性产品,精度和物理模拟有待提升。


核心要点

  1. 谷歌DeepMind将街景数据集成到Genie世界模型,支持从真实地点生成交互式模拟环境。
  2. Genie 3已用于Waymo自动驾驶训练,模拟罕见事件(如龙卷风、大象)。
  3. 街景数据覆盖110个国家、2800亿张图像,可模拟不同天气和视角。
  4. 当前模型精度为视频游戏级别,非照片级真实,且缺乏物理感知(如物体穿透)。
  5. 研究人员预计6-12个月内提升精度和物理模拟能力。

正文

我们都有过在谷歌地图上打开街景,向朋友展示童年故居,或把小人图标拖到巴黎街头查看酒店周边环境的经历。想象一下,如果能以更沉浸、更互动的方式模拟街道及其环境,甚至调整天气或模拟“后天”场景,会是什么样子?

这正是谷歌最新集成的目标之一。从今天开始,谷歌DeepMind将街景连接到其通用世界模型Project Genie,该模型能生成多样化的交互式环境。这项新功能在Google I/O 2026开发者大会上发布。

“这对智能体和机器人用例以及人类互动都非常强大,这始终是Genie的核心理念,”DeepMind开放团队研究科学家Jack Parker-Holder告诉TechCrunch。他举例说,在伦敦部署的新机器人很少见到阳光。Genie可以模拟那些罕见的阳光照射维多利亚式房屋的时刻,这样当阳光出现时,机器人就不会被吓到。

“同时,你可能会说,‘我要去纽约市,但不是这个季节,’他继续说道,‘那里会下雪。我想看看那个街区在雪中的样子。’”

谷歌通过车载摄像头和佩戴“追踪背包”的个人收集街景数据已有20年。这家科技巨头已在110个国家和七大洲收集了超过2800亿张图像。

“通过街景,我们拥有全球大量地区的图像,”Jack说。“你可以想象,将这种丰富的现实世界信息和数据与模拟世界的能力结合起来,潜力有多大。”

谷歌去年8月发布了最新世界模型Genie 3的研究预览版,并于1月向美国Google AI Ultra订阅用户开放了该工具,允许用户通过文本提示或图像创建交互式游戏世界。目标是利用Genie进行教育体验、游戏和机器人训练。

Genie 3已用于支持Waymo的一个模拟器,训练其自动驾驶汽车应对“极其罕见的事件”,如龙卷风或偶遇大象。将街景数据加入其中,有助于Waymo为在全球更多城市推出做准备。

Waymo有自己的模拟器,依靠它扩展到11个美国城市,并在更多城市测试其AI驾驶员。Parker-Holder表示,与Genie的区别在于,这些模拟器都是从汽车视角出发。而街景不仅允许模拟锚定于真实地点的世界,还能将视角切换到其他类型的智能体,如人类或机器人。

谷歌从今天开始向部分美国Ultra用户推出Genie中的街景功能,并逐步扩大访问范围。据公司称,全球Ultra用户将在未来几周内获得访问权限。

DeepMind产品经理Diego Rivas表示,研究人员的目标是让尽可能多的人使用这项新功能。他提醒说,街景和Genie整体上仍是一个实验,因此在准确性方面还有很多改进空间。

在谷歌团队向我展示的样本中——包括我过去居住的社区的水下模拟——结果令人印象深刻且可识别,但仍是视频游戏质量,而非照片级真实。模型也尚未具备物理感知,即它们还不理解因果关系。例如,在一个女子在雪中约书亚树奔跑的模拟中,她直接穿过了仙人掌和灌木丛。

相比之下,谷歌的图像生成器Nano Banana(现在能在信息图中生成完美文本)或视频生成器Veo(理解纸船随水流漂动、烟雾扩散、布料覆盖物体)则更先进。

物理规则并非硬编码到这些模型中;它们通过被动观察随时间直觉地学习,就像生物一样。

“我认为对于这类模型,在准确性和质量方面可能落后视频6到12个月,所以我认为这是我们可以解决的问题,”Parker-Holder说。

谷歌地图总监Jonathan Herbert(12年前作为实习生加入街景团队)表示,Genie目前还无法创建街道的忠实重建。他认为真正的突破在于AI的空间连续性。如果你旋转360度,AI能正确记住并模拟你身后的环境。从那时起,模型可以在其基础上构建新环境。

“我们一直在思考如何利用街景数据构建最好、最丰富的世界模型,”Herbert说。“以新方式使用地图数据并用于新型AI应用,一直是我们的想法。”


关联概念

  • 世界模型
  • 街景
  • Genie
  • Waymo
  • 自动驾驶模拟

原文: Google’s Genie world model can now simulate real streets with Street View
自动加工于 2026-05-20 11:34

#谷歌#世界模型#街景#自动驾驶#3D模拟

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌在I/O大会上发布Gemini Omni多模态模型家族,能从图像、音频、文本等任意输入生成视频,并支持文本编辑照片和创建数字头像,标志着多模态AI的重大突破。

阅读全文 →
↗
精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

OpenAI声称解决了80年数学难题——这次是真的

OpenAI宣称其推理模型推翻了一个自1946年以来未解的几何猜想,并获得了此前质疑其成果的数学家的背书。

阅读全文 →
↗
精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍,并推出代理开发平台Antigravity。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

OScaR:面向LLM及更广领域的极端KV缓存量化的奥卡姆剃刀

OScaR是一种新型KV缓存压缩框架,通过沟渠化旋转和全token缩放解决token范数不平衡问题,在INT2量化下实现近无损性能,解码速度相比BF16基线提升3.0倍。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA