基于时空注意力链的快速4D网格生成

本文提出一种无需训练的4D网格生成方法，利用时空注意力链加速网格创建，同时提升时间对应质量，并支持可扩展的长序列处理。该方法在9秒内生成4D网格，实现13倍加速，且能处理长达16倍的视频序列而不降低质量。此外，改进的时间对应性在2D目标跟踪、4D跟踪和相机估计等下游任务中展现出零样本竞争力。

核心要点

提出时空注意力链框架，无需训练即可加速4D网格生成，实现13倍速度提升（9秒生成）。
核心发现：4D骨干网络中的时间对应性在网格视觉准确之前就已出现，利用此特性避免显式匹配。
方法从锚网格顶点出发，映射到潜在令牌，通过潜在空间时间对应性恢复帧特定顶点，保持锚网格细节。
可扩展至16倍更长视频序列，网格质量不下降。
在2D目标跟踪、4D跟踪和相机估计等下游任务中实现零样本性能，超越先前方法。

正文

4D网格生成是从视频中恢复动态3D结构的新兴范式，但现有方法速度慢、计算成本高，且难以扩展到长序列。本文提出一种无需训练的通用框架——时空注意力链，通过传播空间和时间信息来加速生成并提升时间对应质量。

关键观察是：4D骨干网络中的时间对应性在生成的网格视觉准确之前就已出现。基于此，框架从锚网格的顶点开始，将顶点映射到潜在令牌，然后在潜在空间中跟踪时间对应性，并通过潜在到顶点注意力恢复帧特定顶点。这种设计避免了昂贵的显式匹配，同时保留了锚网格细节，从而改善动态网格几何和时间一致性。

与最先进方法相比，该方法在9秒内生成4D网格，实现13倍加速，且生成质量更高。此外，它可扩展到16倍更长的视频序列，而不降低网格质量。在生成之外，改进的时间对应性使方法在2D目标跟踪和4D跟踪两个下游任务中达到零样本竞争力。进一步，框架还支持可靠的相机估计，这是先前4D网格生成方法不具备的能力。

关联概念

4D网格生成
时空注意力
时间对应性
潜在令牌
零样本学习
2D目标跟踪
4D跟踪
相机估计

可操作项

可尝试将时空注意力链框架应用于其他动态3D重建任务，如动态场景流估计或视频中的3D人体姿态跟踪。具体实践：从锚网格顶点出发，设计潜在令牌映射和注意力机制，避免显式匹配，并测试在长序列上的扩展性。

原文: Fast 4D Mesh Generation by Spatio-Temporal Attention Chains
自动加工于 2026-05-21 08:08

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章