MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

因果强制++:用于实时交互式视频生成的可扩展少步自回归扩散蒸馏

阅读原文 ↗

本文提出因果强制++(Causal Forcing++),一种用于实时交互视频生成的可扩展少步自回归扩散蒸馏方法。该方法通过因果一致性蒸馏(causal CD)实现帧级自回归,仅需1-2步采样,解决了现有方法粗粒度响应和高延迟问题。在帧级2步设置下,该方法在VBench Total、VBench Quality和VisionReward上分别超越最先进的4步块级因果强制0.1、0.3和0.335,同时首帧延迟降低50%,第二阶段训练成本减少约4倍。该方法还扩展至动作条件世界模型生成。


核心要点

  1. 提出因果一致性蒸馏(causal CD)用于少步自回归初始化,避免预计算完整PF-ODE轨迹,提升效率和优化性。
  2. 在帧级2步设置下,VBench Total提升0.1,VBench Quality提升0.3,VisionReward提升0.335。
  3. 首帧延迟降低50%,第二阶段训练成本减少约4倍。
  4. 扩展至动作条件世界模型生成,类似Genie3。
  5. 现有少步自回归初始化策略存在目标不对齐、无法少步生成或成本过高问题,因果CD解决了这些瓶颈。

正文

原始摘要

实时交互视频生成需要低延迟、流式处理和可控展开。现有自回归(AR)扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型,在块级4步机制中取得了强劲结果,但仍受限于粗粒度响应和不可忽略的采样延迟。本文研究了一种更激进的设置:仅需1-2步采样的帧级自回归。在此机制中,我们识别出少步AR学生模型的初始化是关键瓶颈:现有策略要么目标不对齐,要么无法进行少步生成,要么成本过高难以扩展。我们提出因果强制++,一种原则性且可扩展的流水线,使用因果一致性蒸馏(causal CD)进行少步AR初始化。核心思想是,因果CD学习与因果ODE蒸馏相同的AR条件流映射,但通过相邻时间步之间的单个在线教师ODE步骤获得监督,避免了预计算和存储完整PF-ODE轨迹的需要。这使得初始化更高效且更易优化。由此产生的流水线在帧级2步设置下,在VBench Total上超越最先进的4步块级因果强制0.1,在VBench Quality上超越0.3,在VisionReward上超越0.335,同时首帧延迟降低50%,第二阶段训练成本减少约4倍。我们进一步将流水线扩展到动作条件世界模型生成,类似于Genie3。项目页面:https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。


关联概念

  • 自回归扩散蒸馏
  • 因果一致性蒸馏
  • 帧级自回归
  • 世界模型生成
  • PF-ODE轨迹

可操作项

可尝试复现因果强制++的帧级2步设置,使用其开源代码(https://github.com/thu-ml/Causal-Forcing)进行视频生成实验,并对比块级4步方法的延迟和质量。


原文: Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation
自动加工于 2026-05-16 00:46

#视频生成#扩散模型#自回归#蒸馏

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA