MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ☆ ☆ ☆

Flash-GRPO:通过单步策略优化实现视频扩散模型的高效对齐

阅读原文 ↗

Flash-GRPO:通过单步策略优化实现视频扩散模型的高效对齐

Flash-GRPO 是一种单步训练框架,旨在解决视频扩散模型在人类偏好对齐中的计算瓶颈。它通过等时分组消除时间步混淆方差,并通过时间梯度修正解决梯度幅度不一致问题,从而在低计算预算下实现优于全轨迹训练的对齐质量,并显著提升训练效率。实验在 1.3B 到 14B 参数模型上验证了其有效性。


核心要点

  1. GRPO 在视频扩散模型对齐中面临计算瓶颈:训练 14B 参数模型通常需要数百 GPU 天。
  2. 现有方法(如滑动窗口子采样)虽降低成本,但导致优化不稳定,无法达到全轨迹性能。
  3. Flash-GRPO 提出单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量。
  4. 等时分组通过强制提示级时间一致性,消除时间步混淆方差,解耦策略性能与时间步难度。
  5. 时间梯度修正中和了时间依赖的缩放因子,解决不同时间步梯度幅度严重不一致的问题。

正文

摘要

组相对策略优化(GRPO)已成为将视频扩散模型与人类偏好对齐的关键技术,但面临关键计算瓶颈:训练一个 14B 参数模型通常需要数百 GPU 天。现有效率方法通过滑动窗口子采样训练时间步来降低成本,但根本上损害了优化过程,表现出严重的不稳定性,且无法达到全轨迹性能。我们提出 Flash-GRPO,一种单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量,同时显著提升训练效率。Flash-GRPO 解决了两个关键挑战:等时分组通过强制提示级时间一致性消除时间步混淆方差,将策略性能与时间步难度解耦;时间梯度修正中和了导致不同时间步梯度幅度严重不一致的时间依赖缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了显著的训练加速、一致的稳定性和最先进的对齐质量。

扩展摘要

组相对策略优化已成为将视频扩散模型与人类偏好对齐的关键技术,但面临关键计算瓶颈:训练一个 14B 参数模型通常每次实验需要数百 GPU 天。现有效率方法通过滑动窗口子采样训练时间步来降低成本,但根本上损害了优化过程,表现出严重的不稳定性,且无法达到全轨迹性能。我们提出 Flash-GRPO,一种单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量,同时显著提升训练效率。Flash-GRPO 解决了两个关键挑战:等时分组通过强制提示级时间一致性消除时间步混淆方差,将策略性能与时间步难度解耦;时间梯度修正中和了导致不同时间步梯度幅度严重不一致的时间依赖缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了显著的训练加速、一致的稳定性和最先进的对齐质量。


关联概念

  • 组相对策略优化 (GRPO)
  • 视频扩散模型
  • 人类偏好对齐
  • 单步训练框架
  • 等时分组
  • 时间梯度修正

可操作项

对于技术文章,可动手实践的内容包括:1. 在视频扩散模型训练中实施 Flash-GRPO 框架,替换现有的滑动窗口子采样方法。2. 调整等时分组策略,确保提示级时间一致性。3. 应用时间梯度修正,中和时间依赖缩放因子。4. 在 1.3B 到 14B 参数模型上测试训练加速和对齐质量。


#组相对策略优化#视频扩散模型#等时分组#时间梯度修正#训练效率

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA