MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 TechCrunch 2026-05-21 1 min read ★ ★ ★ ★ ☆

谷歌Genie世界模型现可通过街景模拟真实街道

阅读原文 ↗

谷歌DeepMind将街景数据集成到其通用世界模型Genie中,允许用户从文本或图像生成交互式3D环境,并模拟天气、视角变化等。该技术已用于Waymo自动驾驶训练,但仍是实验性产品,精度和物理模拟有待提升。


核心要点

  1. 谷歌DeepMind将街景数据集成到Genie世界模型,支持从真实地点生成交互式模拟环境。
  2. Genie 3已用于Waymo自动驾驶训练,模拟罕见事件(如龙卷风、大象)。
  3. 街景数据覆盖110个国家、2800亿张图像,可模拟不同天气和视角。
  4. 当前模型精度为视频游戏级别,非照片级真实,且缺乏物理感知(如物体穿透)。
  5. 研究人员预计6-12个月内提升精度和物理模拟能力。

正文

我们都有过在谷歌地图上打开街景,向朋友展示童年故居,或把小人图标拖到巴黎街头查看酒店周边环境的经历。想象一下,如果能以更沉浸、更互动的方式模拟街道及其环境,甚至调整天气或模拟“后天”场景,会是什么样子?

这正是谷歌最新集成的目标之一。从今天开始,谷歌DeepMind将街景连接到其通用世界模型Project Genie,该模型能生成多样化的交互式环境。这项新功能在Google I/O 2026开发者大会上发布。

“这对智能体和机器人用例以及人类互动都非常强大,这始终是Genie的核心理念,”DeepMind开放团队研究科学家Jack Parker-Holder告诉TechCrunch。他举例说,在伦敦部署的新机器人很少见到阳光。Genie可以模拟那些罕见的阳光照射维多利亚式房屋的时刻,这样当阳光出现时,机器人就不会被吓到。

“同时,你可能会说,‘我要去纽约市,但不是这个季节,’他继续说道,‘那里会下雪。我想看看那个街区在雪中的样子。’”

谷歌通过车载摄像头和佩戴“追踪背包”的个人收集街景数据已有20年。这家科技巨头已在110个国家和七大洲收集了超过2800亿张图像。

“通过街景,我们拥有全球大量地区的图像,”Jack说。“你可以想象,将这种丰富的现实世界信息和数据与模拟世界的能力结合起来,潜力有多大。”

谷歌去年8月发布了最新世界模型Genie 3的研究预览版,并于1月向美国Google AI Ultra订阅用户开放了该工具,允许用户通过文本提示或图像创建交互式游戏世界。目标是利用Genie进行教育体验、游戏和机器人训练。

Genie 3已用于支持Waymo的一个模拟器,训练其自动驾驶汽车应对“极其罕见的事件”,如龙卷风或偶遇大象。将街景数据加入其中,有助于Waymo为在全球更多城市推出做准备。

Waymo有自己的模拟器,依靠它扩展到11个美国城市,并在更多城市测试其AI驾驶员。Parker-Holder表示,与Genie的区别在于,这些模拟器都是从汽车视角出发。而街景不仅允许模拟锚定于真实地点的世界,还能将视角切换到其他类型的智能体,如人类或机器人。

谷歌从今天开始向部分美国Ultra用户推出Genie中的街景功能,并逐步扩大访问范围。据公司称,全球Ultra用户将在未来几周内获得访问权限。

DeepMind产品经理Diego Rivas表示,研究人员的目标是让尽可能多的人使用这项新功能。他提醒说,街景和Genie整体上仍是一个实验,因此在准确性方面还有很多改进空间。

在谷歌团队向我展示的样本中——包括我过去居住的社区的水下模拟——结果令人印象深刻且可识别,但仍是视频游戏质量,而非照片级真实。模型也尚未具备物理感知,即它们还不理解因果关系。例如,在一个女子在雪中约书亚树奔跑的模拟中,她直接穿过了仙人掌和灌木丛。

相比之下,谷歌的图像生成器Nano Banana(现在能在信息图中生成完美文本)或视频生成器Veo(理解纸船随水流漂动、烟雾扩散、布料覆盖物体)则更先进。

物理规则并非硬编码到这些模型中;它们通过被动观察随时间直觉地学习,就像生物一样。

“我认为对于这类模型,在准确性和质量方面可能落后视频6到12个月,所以我认为这是我们可以解决的问题,”Parker-Holder说。

谷歌地图总监Jonathan Herbert(12年前作为实习生加入街景团队)表示,Genie目前还无法创建街道的忠实重建。他认为真正的突破在于AI的空间连续性。如果你旋转360度,AI能正确记住并模拟你身后的环境。从那时起,模型可以在其基础上构建新环境。

“我们一直在思考如何利用街景数据构建最好、最丰富的世界模型,”Herbert说。“以新方式使用地图数据并用于新型AI应用,一直是我们的想法。”


关联概念

  • 世界模型
  • 街景
  • Genie
  • Waymo
  • 自动驾驶模拟

原文: Google’s Genie world model can now simulate real streets with Street View
自动加工于 2026-05-20 11:34

#谷歌#世界模型#街景#自动驾驶#3D模拟

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA