超越舒适区的助推：高效策略引导的强化学习探索

NudgeRL框架通过结构化探索和策略轻推，增强基于可验证奖励的强化学习（RLVR），提升大语言模型的推理能力。该方法引入策略轻推，利用轻量级策略级上下文引导多样化推理轨迹，无需昂贵的神谕监督。同时提出统一目标，将奖励信号分解为上下文间和上下文内组件，并加入蒸馏目标将发现的行为迁移回基础策略。实验表明，NudgeRL在五个数学基准上平均优于标准GRPO（即使后者使用8倍 rollout 预算），并优于基于神谕的RL基线。

核心要点

NudgeRL通过策略轻推（Strategy Nudging）实现结构化探索，在rollout中注入轻量级策略级上下文，诱导多样化推理轨迹，避免暴力扩展rollout数量。
提出统一优化目标，将奖励信号分解为上下文间（inter-context）和上下文内（intra-context）组件，并加入蒸馏目标，将探索到的有效行为迁移回基础策略。
在五个数学基准上，NudgeRL平均优于标准GRPO（即使GRPO使用8倍rollout预算），并优于依赖神谕信息的RL基线。
该方法证明结构化、上下文驱动的探索可作为暴力rollout扩展和基于特权信息的可行性导向方法的有效、可扩展替代方案。
代码开源：https://github.com/tally0818/NudgeRL

正文

原始摘要

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的可扩展范式。然而，其有效性根本上受限于探索：策略只能在其已采样的轨迹上改进。虽然增加rollout数量可以缓解此问题，但这种暴力扩展计算成本高昂，且现有修改优化目标的方法对探索内容的控制有限。本文提出NudgeRL，一个用于RLVR中结构化、多样性驱动的探索框架。我们的方法引入策略轻推（Strategy Nudging），将每个rollout条件化为轻量级的策略级上下文，以诱导多样化的推理轨迹，而无需依赖昂贵的神谕监督。为了有效从这种结构化探索中学习，我们进一步提出统一目标，将奖励信号分解为上下文间和上下文内组件，并加入蒸馏目标，将发现的行为迁移回基础策略。实验表明，NudgeRL在五个具有挑战性的数学基准上平均优于使用高达8倍rollout预算的标准GRPO，并优于基于神谕的RL基线。这些结果表明，结构化、上下文驱动的探索可以作为暴力rollout扩展和基于特权信息的可行性导向方法的有效、可扩展替代方案。我们的代码可在 https://github.com/tally0818/NudgeRL 获取。

关联概念

基于可验证奖励的强化学习（RLVR）
策略轻推（Strategy Nudging）
GRPO
蒸馏目标（Distillation Objective）
神谕监督（Oracle Supervision）

可操作项

访问代码仓库 https://github.com/tally0818/NudgeRL 获取实现细节和预训练模型。
在自己的数学推理任务上复现NudgeRL，对比标准GRPO和暴力rollout扩展的效果。
尝试调整策略级上下文的生成方式（如使用不同提示模板或轻量级分类器），观察对探索多样性和最终性能的影响。
在统一目标中，实验不同权重分配（上下文间 vs 上下文内奖励组件）以及蒸馏损失系数，寻找最优配置。

原文: Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR
自动加工于 2026-05-19 05:53

核心要点

正文

原始摘要

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章