本文提出一种无需训练的4D网格生成方法,利用时空注意力链加速网格创建,同时提升时间对应质量,并支持可扩展的长序列处理。该方法在9秒内生成4D网格,实现13倍加速,且能处理长达16倍的视频序列而不降低质量。此外,改进的时间对应性在2D目标跟踪、4D跟踪和相机估计等下游任务中展现出零样本竞争力。
核心要点
- 提出时空注意力链框架,无需训练即可加速4D网格生成,实现13倍速度提升(9秒生成)。
- 核心发现:4D骨干网络中的时间对应性在网格视觉准确之前就已出现,利用此特性避免显式匹配。
- 方法从锚网格顶点出发,映射到潜在令牌,通过潜在空间时间对应性恢复帧特定顶点,保持锚网格细节。
- 可扩展至16倍更长视频序列,网格质量不下降。
- 在2D目标跟踪、4D跟踪和相机估计等下游任务中实现零样本性能,超越先前方法。
正文
4D网格生成是从视频中恢复动态3D结构的新兴范式,但现有方法速度慢、计算成本高,且难以扩展到长序列。本文提出一种无需训练的通用框架——时空注意力链,通过传播空间和时间信息来加速生成并提升时间对应质量。
关键观察是:4D骨干网络中的时间对应性在生成的网格视觉准确之前就已出现。基于此,框架从锚网格的顶点开始,将顶点映射到潜在令牌,然后在潜在空间中跟踪时间对应性,并通过潜在到顶点注意力恢复帧特定顶点。这种设计避免了昂贵的显式匹配,同时保留了锚网格细节,从而改善动态网格几何和时间一致性。
与最先进方法相比,该方法在9秒内生成4D网格,实现13倍加速,且生成质量更高。此外,它可扩展到16倍更长的视频序列,而不降低网格质量。在生成之外,改进的时间对应性使方法在2D目标跟踪和4D跟踪两个下游任务中达到零样本竞争力。进一步,框架还支持可靠的相机估计,这是先前4D网格生成方法不具备的能力。
关联概念
- 4D网格生成
- 时空注意力
- 时间对应性
- 潜在令牌
- 零样本学习
- 2D目标跟踪
- 4D跟踪
- 相机估计
可操作项
可尝试将时空注意力链框架应用于其他动态3D重建任务,如动态场景流估计或视频中的3D人体姿态跟踪。具体实践:从锚网格顶点出发,设计潜在令牌映射和注意力机制,避免显式匹配,并测试在长序列上的扩展性。
原文: Fast 4D Mesh Generation by Spatio-Temporal Attention Chains
自动加工于 2026-05-21 08:08