HölderPO是一种通用策略优化框架,通过Hölder均值统一token级概率聚合,解决了GRPO中固定聚合机制导致的训练崩溃与性能不佳的权衡问题。通过调节参数p,框架可连续控制梯度集中度与方差边界,并采用动态退火算法在训练过程中逐步调度p。实验表明,该方法在多个数学基准上达到54.9%的平均准确率,相对GRPO提升7.2%,在ALFWorld上成功率达93.8%。
核心要点
- 提出HölderPO框架,用Hölder均值替代GRPO的固定聚合机制,通过参数p连续调节梯度集中度与方差边界。
- 理论证明:较大的p集中梯度以放大稀疏学习信号,较小的p严格约束梯度方差。
- 动态退火算法:在训练生命周期中逐步调度p,避免静态配置无法解决集中-稳定权衡的问题。
- 实验成果:在多个数学基准上平均准确率54.9%,相对GRPO提升7.2%;在ALFWorld上成功率达93.8%。
- 解决了GRPO中固定聚合机制导致的训练崩溃或性能不佳的权衡问题。
正文
原始摘要
组相对策略优化(GRPO)通过估计一组采样轨迹的优势来增强大型语言模型。然而,将这些轨迹级优势映射到策略更新需要聚合每个序列内的token级概率。依赖固定的聚合机制从根本上限制了算法的适应性。实验上,我们观察到一个关键的权衡:某些固定聚合经常遭受训练崩溃,而其他聚合则无法产生令人满意的性能。为了解决这个问题,我们提出了HölderPO,一个通过Hölder均值统一token级概率聚合的通用策略优化框架。通过显式调节参数p,我们的框架提供了对梯度集中度与方差边界之间权衡的连续控制。理论上,我们证明较大的p会集中梯度以放大稀疏学习信号,而较小的p则严格约束梯度方差。由于没有静态配置能普遍解决这种集中-稳定权衡,我们实例化了该框架,采用动态退火算法在训练生命周期中逐步调度p。大量评估表明,该方法在稳定性和收敛性上优于现有基线。具体来说,我们的方法在多个数学基准上达到了54.9%的最优平均准确率,相对于标准GRPO实现了7.2%的显著相对提升,并在ALFWorld上获得了93.8%的卓越成功率。
关联概念
- GRPO (组相对策略优化)
- Hölder均值
- 策略优化
- 梯度集中度
- 方差边界
- 动态退火算法
可操作项
可动手实践:1. 在现有GRPO实现中,将固定聚合机制替换为Hölder均值聚合,并引入参数p。2. 实现动态退火算法,在训练过程中逐步调整p值(例如从较小值逐渐增大)。3. 在数学推理或交互式任务(如ALFWorld)上测试不同p调度策略对训练稳定性和最终性能的影响。
原文: Hölder Policy Optimisation
自动加工于 2026-05-19 05:53