MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

基于时空注意力链的快速4D网格生成

阅读原文 ↗

本文提出一种无需训练的4D网格生成方法,利用时空注意力链加速网格创建,同时提升时间对应质量,并支持可扩展的长序列处理。该方法在9秒内生成4D网格,实现13倍加速,且能处理长达16倍的视频序列而不降低质量。此外,改进的时间对应性在2D目标跟踪、4D跟踪和相机估计等下游任务中展现出零样本竞争力。


核心要点

  1. 提出时空注意力链框架,无需训练即可加速4D网格生成,实现13倍速度提升(9秒生成)。
  2. 核心发现:4D骨干网络中的时间对应性在网格视觉准确之前就已出现,利用此特性避免显式匹配。
  3. 方法从锚网格顶点出发,映射到潜在令牌,通过潜在空间时间对应性恢复帧特定顶点,保持锚网格细节。
  4. 可扩展至16倍更长视频序列,网格质量不下降。
  5. 在2D目标跟踪、4D跟踪和相机估计等下游任务中实现零样本性能,超越先前方法。

正文

4D网格生成是从视频中恢复动态3D结构的新兴范式,但现有方法速度慢、计算成本高,且难以扩展到长序列。本文提出一种无需训练的通用框架——时空注意力链,通过传播空间和时间信息来加速生成并提升时间对应质量。

关键观察是:4D骨干网络中的时间对应性在生成的网格视觉准确之前就已出现。基于此,框架从锚网格的顶点开始,将顶点映射到潜在令牌,然后在潜在空间中跟踪时间对应性,并通过潜在到顶点注意力恢复帧特定顶点。这种设计避免了昂贵的显式匹配,同时保留了锚网格细节,从而改善动态网格几何和时间一致性。

与最先进方法相比,该方法在9秒内生成4D网格,实现13倍加速,且生成质量更高。此外,它可扩展到16倍更长的视频序列,而不降低网格质量。在生成之外,改进的时间对应性使方法在2D目标跟踪和4D跟踪两个下游任务中达到零样本竞争力。进一步,框架还支持可靠的相机估计,这是先前4D网格生成方法不具备的能力。


关联概念

  • 4D网格生成
  • 时空注意力
  • 时间对应性
  • 潜在令牌
  • 零样本学习
  • 2D目标跟踪
  • 4D跟踪
  • 相机估计

可操作项

可尝试将时空注意力链框架应用于其他动态3D重建任务,如动态场景流估计或视频中的3D人体姿态跟踪。具体实践:从锚网格顶点出发,设计潜在令牌映射和注意力机制,避免显式匹配,并测试在长序列上的扩展性。


原文: Fast 4D Mesh Generation by Spatio-Temporal Attention Chains
自动加工于 2026-05-21 08:08

#4D网格生成#时空注意力#零样本学习

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA