因果强制++：用于实时交互式视频生成的可扩展少步自回归扩散蒸馏

本文提出因果强制++（Causal Forcing++），一种用于实时交互视频生成的可扩展少步自回归扩散蒸馏方法。该方法通过因果一致性蒸馏（causal CD）实现帧级自回归，仅需1-2步采样，解决了现有方法粗粒度响应和高延迟问题。在帧级2步设置下，该方法在VBench Total、VBench Quality和VisionReward上分别超越最先进的4步块级因果强制0.1、0.3和0.335，同时首帧延迟降低50%，第二阶段训练成本减少约4倍。该方法还扩展至动作条件世界模型生成。

核心要点

提出因果一致性蒸馏（causal CD）用于少步自回归初始化，避免预计算完整PF-ODE轨迹，提升效率和优化性。
在帧级2步设置下，VBench Total提升0.1，VBench Quality提升0.3，VisionReward提升0.335。
首帧延迟降低50%，第二阶段训练成本减少约4倍。
扩展至动作条件世界模型生成，类似Genie3。
现有少步自回归初始化策略存在目标不对齐、无法少步生成或成本过高问题，因果CD解决了这些瓶颈。

正文

原始摘要

实时交互视频生成需要低延迟、流式处理和可控展开。现有自回归（AR）扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型，在块级4步机制中取得了强劲结果，但仍受限于粗粒度响应和不可忽略的采样延迟。本文研究了一种更激进的设置：仅需1-2步采样的帧级自回归。在此机制中，我们识别出少步AR学生模型的初始化是关键瓶颈：现有策略要么目标不对齐，要么无法进行少步生成，要么成本过高难以扩展。我们提出因果强制++，一种原则性且可扩展的流水线，使用因果一致性蒸馏（causal CD）进行少步AR初始化。核心思想是，因果CD学习与因果ODE蒸馏相同的AR条件流映射，但通过相邻时间步之间的单个在线教师ODE步骤获得监督，避免了预计算和存储完整PF-ODE轨迹的需要。这使得初始化更高效且更易优化。由此产生的流水线在帧级2步设置下，在VBench Total上超越最先进的4步块级因果强制0.1，在VBench Quality上超越0.3，在VisionReward上超越0.335，同时首帧延迟降低50%，第二阶段训练成本减少约4倍。我们进一步将流水线扩展到动作条件世界模型生成，类似于Genie3。项目页面：https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。

关联概念

自回归扩散蒸馏
因果一致性蒸馏
帧级自回归
世界模型生成
PF-ODE轨迹

可操作项

可尝试复现因果强制++的帧级2步设置，使用其开源代码（https://github.com/thu-ml/Causal-Forcing）进行视频生成实验，并对比块级4步方法的延迟和质量。

原文: Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation
自动加工于 2026-05-16 00:46

核心要点

正文

原始摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章