本文提出因果强制++(Causal Forcing++),一种用于实时交互视频生成的可扩展少步自回归扩散蒸馏方法。该方法通过因果一致性蒸馏(causal CD)实现帧级自回归,仅需1-2步采样,解决了现有方法粗粒度响应和高延迟问题。在帧级2步设置下,该方法在VBench Total、VBench Quality和VisionReward上分别超越最先进的4步块级因果强制0.1、0.3和0.335,同时首帧延迟降低50%,第二阶段训练成本减少约4倍。该方法还扩展至动作条件世界模型生成。
核心要点
- 提出因果一致性蒸馏(causal CD)用于少步自回归初始化,避免预计算完整PF-ODE轨迹,提升效率和优化性。
- 在帧级2步设置下,VBench Total提升0.1,VBench Quality提升0.3,VisionReward提升0.335。
- 首帧延迟降低50%,第二阶段训练成本减少约4倍。
- 扩展至动作条件世界模型生成,类似Genie3。
- 现有少步自回归初始化策略存在目标不对齐、无法少步生成或成本过高问题,因果CD解决了这些瓶颈。
正文
原始摘要
实时交互视频生成需要低延迟、流式处理和可控展开。现有自回归(AR)扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型,在块级4步机制中取得了强劲结果,但仍受限于粗粒度响应和不可忽略的采样延迟。本文研究了一种更激进的设置:仅需1-2步采样的帧级自回归。在此机制中,我们识别出少步AR学生模型的初始化是关键瓶颈:现有策略要么目标不对齐,要么无法进行少步生成,要么成本过高难以扩展。我们提出因果强制++,一种原则性且可扩展的流水线,使用因果一致性蒸馏(causal CD)进行少步AR初始化。核心思想是,因果CD学习与因果ODE蒸馏相同的AR条件流映射,但通过相邻时间步之间的单个在线教师ODE步骤获得监督,避免了预计算和存储完整PF-ODE轨迹的需要。这使得初始化更高效且更易优化。由此产生的流水线在帧级2步设置下,在VBench Total上超越最先进的4步块级因果强制0.1,在VBench Quality上超越0.3,在VisionReward上超越0.335,同时首帧延迟降低50%,第二阶段训练成本减少约4倍。我们进一步将流水线扩展到动作条件世界模型生成,类似于Genie3。项目页面:https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。
关联概念
- 自回归扩散蒸馏
- 因果一致性蒸馏
- 帧级自回归
- 世界模型生成
- PF-ODE轨迹
可操作项
可尝试复现因果强制++的帧级2步设置,使用其开源代码(https://github.com/thu-ml/Causal-Forcing)进行视频生成实验,并对比块级4步方法的延迟和质量。
原文: Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation
自动加工于 2026-05-16 00:46