搜索: GRPO

找到 3 篇包含 "GRPO" 的文章

AI·模型

Hugging Face Daily Papers 2026-05-20 ★ ★ ☆ ☆ ☆

Flash-GRPO：通过单步策略优化实现视频扩散模型的高效对齐

Flash-GRPO 是一种单步训练框架，旨在解决视频扩散模型在人类偏好对齐中的计算瓶颈。它通过等时分组消除时间步混淆方差，并通过时间梯度修正解决梯度幅度不一致问题，从而在低计算预算下实现优于全轨迹训练的对齐质量，并显著提升训练效率。实验在 1.3B 到 14B 参数模型上验证了其有效性。

AI·模型

Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

Flash-GRPO 是一种单步训练框架，通过等时分组和时间梯度修正，在低计算预算下实现视频扩散模型的高效对齐，显著提升训练效率。

AI·模型

Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

赫尔德策略优化（HölderPO）提出一种通用框架，通过Hölder均值统一token级概率聚合，解决了GRPO中固定聚合机制导致的训练崩溃与性能权衡问题，在多个数学基准上平均准确率达54.9%。