赫尔德策略优化

HölderPO是一种通用策略优化框架，通过Hölder均值统一token级概率聚合，解决了GRPO中固定聚合机制导致的训练崩溃与性能不佳的权衡问题。通过调节参数p，框架可连续控制梯度集中度与方差边界，并采用动态退火算法在训练过程中逐步调度p。实验表明，该方法在多个数学基准上达到54.9%的平均准确率，相对GRPO提升7.2%，在ALFWorld上成功率达93.8%。

核心要点

提出HölderPO框架，用Hölder均值替代GRPO的固定聚合机制，通过参数p连续调节梯度集中度与方差边界。
理论证明：较大的p集中梯度以放大稀疏学习信号，较小的p严格约束梯度方差。
动态退火算法：在训练生命周期中逐步调度p，避免静态配置无法解决集中-稳定权衡的问题。
实验成果：在多个数学基准上平均准确率54.9%，相对GRPO提升7.2%；在ALFWorld上成功率达93.8%。
解决了GRPO中固定聚合机制导致的训练崩溃或性能不佳的权衡问题。

正文

原始摘要

组相对策略优化（GRPO）通过估计一组采样轨迹的优势来增强大型语言模型。然而，将这些轨迹级优势映射到策略更新需要聚合每个序列内的token级概率。依赖固定的聚合机制从根本上限制了算法的适应性。实验上，我们观察到一个关键的权衡：某些固定聚合经常遭受训练崩溃，而其他聚合则无法产生令人满意的性能。为了解决这个问题，我们提出了HölderPO，一个通过Hölder均值统一token级概率聚合的通用策略优化框架。通过显式调节参数p，我们的框架提供了对梯度集中度与方差边界之间权衡的连续控制。理论上，我们证明较大的p会集中梯度以放大稀疏学习信号，而较小的p则严格约束梯度方差。由于没有静态配置能普遍解决这种集中-稳定权衡，我们实例化了该框架，采用动态退火算法在训练生命周期中逐步调度p。大量评估表明，该方法在稳定性和收敛性上优于现有基线。具体来说，我们的方法在多个数学基准上达到了54.9%的最优平均准确率，相对于标准GRPO实现了7.2%的显著相对提升，并在ALFWorld上获得了93.8%的卓越成功率。

关联概念

GRPO (组相对策略优化)
Hölder均值
策略优化
梯度集中度
方差边界
动态退火算法

可操作项

可动手实践：1. 在现有GRPO实现中，将固定聚合机制替换为Hölder均值聚合，并引入参数p。2. 实现动态退火算法，在训练过程中逐步调整p值（例如从较小值逐渐增大）。3. 在数学推理或交互式任务（如ALFWorld）上测试不同p调度策略对训练稳定性和最终性能的影响。

原文: Hölder Policy Optimisation
自动加工于 2026-05-19 05:53

核心要点

正文

原始摘要

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章