Flash-GRPO:通过单步策略优化实现视频扩散模型的高效对齐
Flash-GRPO 是一种单步训练框架,旨在解决视频扩散模型在人类偏好对齐中的计算瓶颈。它通过等时分组消除时间步混淆方差,并通过时间梯度修正解决梯度幅度不一致问题,从而在低计算预算下实现优于全轨迹训练的对齐质量,并显著提升训练效率。实验在 1.3B 到 14B 参数模型上验证了其有效性。
核心要点
- GRPO 在视频扩散模型对齐中面临计算瓶颈:训练 14B 参数模型通常需要数百 GPU 天。
- 现有方法(如滑动窗口子采样)虽降低成本,但导致优化不稳定,无法达到全轨迹性能。
- Flash-GRPO 提出单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量。
- 等时分组通过强制提示级时间一致性,消除时间步混淆方差,解耦策略性能与时间步难度。
- 时间梯度修正中和了时间依赖的缩放因子,解决不同时间步梯度幅度严重不一致的问题。
正文
摘要
组相对策略优化(GRPO)已成为将视频扩散模型与人类偏好对齐的关键技术,但面临关键计算瓶颈:训练一个 14B 参数模型通常需要数百 GPU 天。现有效率方法通过滑动窗口子采样训练时间步来降低成本,但根本上损害了优化过程,表现出严重的不稳定性,且无法达到全轨迹性能。我们提出 Flash-GRPO,一种单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量,同时显著提升训练效率。Flash-GRPO 解决了两个关键挑战:等时分组通过强制提示级时间一致性消除时间步混淆方差,将策略性能与时间步难度解耦;时间梯度修正中和了导致不同时间步梯度幅度严重不一致的时间依赖缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了显著的训练加速、一致的稳定性和最先进的对齐质量。
扩展摘要
组相对策略优化已成为将视频扩散模型与人类偏好对齐的关键技术,但面临关键计算瓶颈:训练一个 14B 参数模型通常每次实验需要数百 GPU 天。现有效率方法通过滑动窗口子采样训练时间步来降低成本,但根本上损害了优化过程,表现出严重的不稳定性,且无法达到全轨迹性能。我们提出 Flash-GRPO,一种单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量,同时显著提升训练效率。Flash-GRPO 解决了两个关键挑战:等时分组通过强制提示级时间一致性消除时间步混淆方差,将策略性能与时间步难度解耦;时间梯度修正中和了导致不同时间步梯度幅度严重不一致的时间依赖缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了显著的训练加速、一致的稳定性和最先进的对齐质量。
关联概念
- 组相对策略优化 (GRPO)
- 视频扩散模型
- 人类偏好对齐
- 单步训练框架
- 等时分组
- 时间梯度修正
可操作项
对于技术文章,可动手实践的内容包括:1. 在视频扩散模型训练中实施 Flash-GRPO 框架,替换现有的滑动窗口子采样方法。2. 调整等时分组策略,确保提示级时间一致性。3. 应用时间梯度修正,中和时间依赖缩放因子。4. 在 1.3B 到 14B 参数模型上测试训练加速和对齐质量。