Flash-GRPO 是一种单步训练框架,旨在解决视频扩散模型对齐中 GRPO 方法的计算瓶颈。它通过等时分组消除时间步混淆方差,并通过时间梯度修正平衡不同时间步的梯度幅度,从而在低计算预算下实现优于全轨迹训练的对齐质量,同时大幅提升训练效率。实验在 1.3B 到 14B 参数模型上验证了其有效性。
核心要点
- GRPO 训练 14B 参数模型需数百 GPU 天,计算成本极高。
- 现有滑动窗口子采样方法虽降低成本,但导致训练不稳定且无法达到全轨迹性能。
- Flash-GRPO 通过等时分组(iso-temporal grouping)消除时间步混淆方差,解耦策略性能与时间步难度。
- 时间梯度修正(temporal gradient rectification)中和了时间依赖缩放因子,平衡不同时间步的梯度幅度。
- 在 1.3B 到 14B 参数模型上验证,Flash-GRPO 实现显著训练加速,同时保持稳定性和最先进的对齐质量。
正文
原始摘要
组相对策略优化(GRPO)已成为将视频扩散模型与人类偏好对齐的关键技术,但面临一个关键的计算瓶颈:训练一个 14B 参数模型通常需要数百 GPU 天。现有效率方法通过滑动窗口子采样训练时间步来降低成本,但根本上损害了优化过程,表现出严重的不稳定性,且无法达到全轨迹性能。我们提出 Flash-GRPO,一种单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量,同时大幅提升训练效率。Flash-GRPO 解决了两个关键挑战:等时分组通过强制提示级别的时间一致性消除时间步混淆方差,将策略性能与时间步难度解耦;时间梯度修正中和了导致不同时间步梯度幅度严重不一致的时间依赖缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了显著的训练加速、一致的稳定性和最先进的对齐质量。
关联概念
- 组相对策略优化 (GRPO)
- 视频扩散模型
- 单步训练框架
- 时间一致性
- 梯度修正
可操作项
可尝试在视频扩散模型训练中应用 Flash-GRPO 框架,具体步骤包括:1) 实现等时分组策略,确保同一提示下的时间步分组一致;2) 应用时间梯度修正,调整不同时间步的梯度缩放因子;3) 使用单步训练替代全轨迹训练,以降低计算成本;4) 在 1.3B 到 14B 参数模型上验证效果,并对比全轨迹训练的性能。
原文: Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization
自动加工于 2026-05-19 05:53