MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

超越舒适区的助推:高效策略引导的强化学习探索

阅读原文 ↗

NudgeRL框架通过结构化探索和策略轻推,增强基于可验证奖励的强化学习(RLVR),提升大语言模型的推理能力。该方法引入策略轻推,利用轻量级策略级上下文引导多样化推理轨迹,无需昂贵的神谕监督。同时提出统一目标,将奖励信号分解为上下文间和上下文内组件,并加入蒸馏目标将发现的行为迁移回基础策略。实验表明,NudgeRL在五个数学基准上平均优于标准GRPO(即使后者使用8倍 rollout 预算),并优于基于神谕的RL基线。


核心要点

  1. NudgeRL通过策略轻推(Strategy Nudging)实现结构化探索,在rollout中注入轻量级策略级上下文,诱导多样化推理轨迹,避免暴力扩展rollout数量。
  2. 提出统一优化目标,将奖励信号分解为上下文间(inter-context)和上下文内(intra-context)组件,并加入蒸馏目标,将探索到的有效行为迁移回基础策略。
  3. 在五个数学基准上,NudgeRL平均优于标准GRPO(即使GRPO使用8倍rollout预算),并优于依赖神谕信息的RL基线。
  4. 该方法证明结构化、上下文驱动的探索可作为暴力rollout扩展和基于特权信息的可行性导向方法的有效、可扩展替代方案。
  5. 代码开源:https://github.com/tally0818/NudgeRL

正文

原始摘要

基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的可扩展范式。然而,其有效性根本上受限于探索:策略只能在其已采样的轨迹上改进。虽然增加rollout数量可以缓解此问题,但这种暴力扩展计算成本高昂,且现有修改优化目标的方法对探索内容的控制有限。本文提出NudgeRL,一个用于RLVR中结构化、多样性驱动的探索框架。我们的方法引入策略轻推(Strategy Nudging),将每个rollout条件化为轻量级的策略级上下文,以诱导多样化的推理轨迹,而无需依赖昂贵的神谕监督。为了有效从这种结构化探索中学习,我们进一步提出统一目标,将奖励信号分解为上下文间和上下文内组件,并加入蒸馏目标,将发现的行为迁移回基础策略。实验表明,NudgeRL在五个具有挑战性的数学基准上平均优于使用高达8倍rollout预算的标准GRPO,并优于基于神谕的RL基线。这些结果表明,结构化、上下文驱动的探索可以作为暴力rollout扩展和基于特权信息的可行性导向方法的有效、可扩展替代方案。我们的代码可在 https://github.com/tally0818/NudgeRL 获取。


关联概念

  • 基于可验证奖励的强化学习(RLVR)
  • 策略轻推(Strategy Nudging)
  • GRPO
  • 蒸馏目标(Distillation Objective)
  • 神谕监督(Oracle Supervision)

可操作项

  1. 访问代码仓库 https://github.com/tally0818/NudgeRL 获取实现细节和预训练模型。
  2. 在自己的数学推理任务上复现NudgeRL,对比标准GRPO和暴力rollout扩展的效果。
  3. 尝试调整策略级上下文的生成方式(如使用不同提示模板或轻量级分类器),观察对探索多样性和最终性能的影响。
  4. 在统一目标中,实验不同权重分配(上下文间 vs 上下文内奖励组件)以及蒸馏损失系数,寻找最优配置。

原文: Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR
自动加工于 2026-05-19 05:53

#强化学习#大语言模型#推理能力

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA