Flash-GRPO:通过单步策略优化实现视频扩散模型的高效对齐
Flash-GRPO 是一种单步训练框架,旨在解决视频扩散模型在人类偏好对齐中的计算瓶颈。它通过等时分组消除时间步混淆方差,并通过时间梯度修正解决梯度幅度不一致问题,从而在低计算预算下实现优于全轨迹训练的对齐质量,并显著提升训练效率。实验在 1.3B 到 14B 参数模型上验证了其有效性。
找到 3 篇包含 "GRPO" 的文章
Flash-GRPO 是一种单步训练框架,旨在解决视频扩散模型在人类偏好对齐中的计算瓶颈。它通过等时分组消除时间步混淆方差,并通过时间梯度修正解决梯度幅度不一致问题,从而在低计算预算下实现优于全轨迹训练的对齐质量,并显著提升训练效率。实验在 1.3B 到 14B 参数模型上验证了其有效性。
Flash-GRPO 是一种单步训练框架,通过等时分组和时间梯度修正,在低计算预算下实现视频扩散模型的高效对齐,显著提升训练效率。
赫尔德策略优化(HölderPO)提出一种通用框架,通过Hölder均值统一token级概率聚合,解决了GRPO中固定聚合机制导致的训练崩溃与性能权衡问题,在多个数学基准上平均准确率达54.9%。