MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

Flash-GRPO:通过单步策略优化实现视频扩散的高效对齐

阅读原文 ↗

Flash-GRPO 是一种单步训练框架,旨在解决视频扩散模型对齐中 GRPO 方法的计算瓶颈。它通过等时分组消除时间步混淆方差,并通过时间梯度修正平衡不同时间步的梯度幅度,从而在低计算预算下实现优于全轨迹训练的对齐质量,同时大幅提升训练效率。实验在 1.3B 到 14B 参数模型上验证了其有效性。


核心要点

  1. GRPO 训练 14B 参数模型需数百 GPU 天,计算成本极高。
  2. 现有滑动窗口子采样方法虽降低成本,但导致训练不稳定且无法达到全轨迹性能。
  3. Flash-GRPO 通过等时分组(iso-temporal grouping)消除时间步混淆方差,解耦策略性能与时间步难度。
  4. 时间梯度修正(temporal gradient rectification)中和了时间依赖缩放因子,平衡不同时间步的梯度幅度。
  5. 在 1.3B 到 14B 参数模型上验证,Flash-GRPO 实现显著训练加速,同时保持稳定性和最先进的对齐质量。

正文

原始摘要

组相对策略优化(GRPO)已成为将视频扩散模型与人类偏好对齐的关键技术,但面临一个关键的计算瓶颈:训练一个 14B 参数模型通常需要数百 GPU 天。现有效率方法通过滑动窗口子采样训练时间步来降低成本,但根本上损害了优化过程,表现出严重的不稳定性,且无法达到全轨迹性能。我们提出 Flash-GRPO,一种单步训练框架,在低计算预算下实现优于全轨迹训练的对齐质量,同时大幅提升训练效率。Flash-GRPO 解决了两个关键挑战:等时分组通过强制提示级别的时间一致性消除时间步混淆方差,将策略性能与时间步难度解耦;时间梯度修正中和了导致不同时间步梯度幅度严重不一致的时间依赖缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了显著的训练加速、一致的稳定性和最先进的对齐质量。


关联概念

  • 组相对策略优化 (GRPO)
  • 视频扩散模型
  • 单步训练框架
  • 时间一致性
  • 梯度修正

可操作项

可尝试在视频扩散模型训练中应用 Flash-GRPO 框架,具体步骤包括:1) 实现等时分组策略,确保同一提示下的时间步分组一致;2) 应用时间梯度修正,调整不同时间步的梯度缩放因子;3) 使用单步训练替代全轨迹训练,以降低计算成本;4) 在 1.3B 到 14B 参数模型上验证效果,并对比全轨迹训练的性能。


原文: Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization
自动加工于 2026-05-19 05:53

#视频扩散#对齐#GRPO#训练效率

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

赫尔德策略优化

赫尔德策略优化(HölderPO)提出一种通用框架,通过Hölder均值统一token级概率聚合,解决了GRPO中固定聚合机制导致的训练崩溃与性能权衡问题,在多个数学基准上平均准确率达54.9%。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

InsightTok:在自回归图像生成的离散分词中提升文本与面部保真度

InsightTok 是一种改进的离散视觉标记化框架,通过引入内容感知的感知损失,显著提升了文本和面部的重建质量,并有效迁移至自回归图像生成任务。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

大规模多智能体路径规划中的局部通信学习

本文提出LC-MAPF预训练模型,通过可学习的局部通信模块实现相邻智能体多轮特征共享,提升多智能体路径规划协调能力。实验在多种未见场景中优于现有强化学习和模仿学习方法,且保持可扩展性。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

学会预见:揭示在线策略蒸馏的效率解锁机制

本文揭示了在线策略蒸馏(OPD)在大语言模型后训练中的效率机制,发现其通过早期建立稳定更新轨迹、集中更新关键推理模块以及低秩集中性实现高效。基于此提出EffOPD方法,进一步优化蒸馏效率。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA