MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

赫尔德策略优化

阅读原文 ↗

HölderPO是一种通用策略优化框架,通过Hölder均值统一token级概率聚合,解决了GRPO中固定聚合机制导致的训练崩溃与性能不佳的权衡问题。通过调节参数p,框架可连续控制梯度集中度与方差边界,并采用动态退火算法在训练过程中逐步调度p。实验表明,该方法在多个数学基准上达到54.9%的平均准确率,相对GRPO提升7.2%,在ALFWorld上成功率达93.8%。


核心要点

  1. 提出HölderPO框架,用Hölder均值替代GRPO的固定聚合机制,通过参数p连续调节梯度集中度与方差边界。
  2. 理论证明:较大的p集中梯度以放大稀疏学习信号,较小的p严格约束梯度方差。
  3. 动态退火算法:在训练生命周期中逐步调度p,避免静态配置无法解决集中-稳定权衡的问题。
  4. 实验成果:在多个数学基准上平均准确率54.9%,相对GRPO提升7.2%;在ALFWorld上成功率达93.8%。
  5. 解决了GRPO中固定聚合机制导致的训练崩溃或性能不佳的权衡问题。

正文

原始摘要

组相对策略优化(GRPO)通过估计一组采样轨迹的优势来增强大型语言模型。然而,将这些轨迹级优势映射到策略更新需要聚合每个序列内的token级概率。依赖固定的聚合机制从根本上限制了算法的适应性。实验上,我们观察到一个关键的权衡:某些固定聚合经常遭受训练崩溃,而其他聚合则无法产生令人满意的性能。为了解决这个问题,我们提出了HölderPO,一个通过Hölder均值统一token级概率聚合的通用策略优化框架。通过显式调节参数p,我们的框架提供了对梯度集中度与方差边界之间权衡的连续控制。理论上,我们证明较大的p会集中梯度以放大稀疏学习信号,而较小的p则严格约束梯度方差。由于没有静态配置能普遍解决这种集中-稳定权衡,我们实例化了该框架,采用动态退火算法在训练生命周期中逐步调度p。大量评估表明,该方法在稳定性和收敛性上优于现有基线。具体来说,我们的方法在多个数学基准上达到了54.9%的最优平均准确率,相对于标准GRPO实现了7.2%的显著相对提升,并在ALFWorld上获得了93.8%的卓越成功率。


关联概念

  • GRPO (组相对策略优化)
  • Hölder均值
  • 策略优化
  • 梯度集中度
  • 方差边界
  • 动态退火算法

可操作项

可动手实践:1. 在现有GRPO实现中,将固定聚合机制替换为Hölder均值聚合,并引入参数p。2. 实现动态退火算法,在训练过程中逐步调整p值(例如从较小值逐渐增大)。3. 在数学推理或交互式任务(如ALFWorld)上测试不同p调度策略对训练稳定性和最终性能的影响。


原文: Hölder Policy Optimisation
自动加工于 2026-05-19 05:53

#策略优化#Hölder均值#强化学习#数学推理

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA