MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

基于学习可靠性的过程奖励

阅读原文 ↗

BetaPRM 提出了一种分布式的过程奖励模型方法,不仅预测步骤级的成功概率,还预测该预测的可靠性。通过 Beta-Binomial 似然学习 Beta 信念,而非直接回归有限样本的成功率。该可靠性信号使下游应用能够区分可靠与不确定的奖励,并支持自适应计算分配(ACA),在保持准确性的同时减少令牌使用量。实验表明,BetaPRM 提升了 PRM 引导的 Best-of-N 选择性能,ACA 相比固定预算的 Best-of-16 减少了高达 33.57% 的令牌使用,同时提高了最终答案的准确性。


核心要点

  1. BetaPRM 预测步骤级成功概率及其预测可靠性,而非单一奖励分数。
  2. 使用 Beta-Binomial 似然学习 Beta 信念,避免直接回归有限样本成功率。
  3. 引入自适应计算分配(ACA),在可靠高奖励时停止,在不确定前缀上增加计算。
  4. 在四个骨干模型和四个推理基准上,BetaPRM 提升了 PRM 引导的 Best-of-N 选择性能。
  5. ACA 相比固定预算 Best-of-16,令牌使用减少高达 33.57%,同时提高最终答案准确性。

正文

原始摘要

过程奖励模型(PRM)为推理提供步骤级反馈,但当前的 PRM 通常只为每个步骤输出一个单一的奖励分数。因此,下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号,而没有任何关于何时应信任这些预测的指示。我们提出 BetaPRM,一种分布式 PRM,同时预测步骤级成功概率和该预测的可靠性。给定来自蒙特卡洛延续的步骤成功监督,BetaPRM 学习一个 Beta 信念,通过 Beta-Binomial 似然解释观察到的成功延续数量,而不是将有限样本的成功率作为点目标进行回归。这种学习到的可靠性信号指示何时应信任步骤奖励,使下游应用能够区分可靠奖励和不确定奖励。作为一项应用,我们为 PRM 引导的 Best-of-N 推理引入了自适应计算分配(ACA)。ACA 使用学习到的可靠性信号,在高奖励解决方案可靠时停止,并在不确定的候选前缀上花费额外计算。在四个骨干模型和四个推理基准上的实验表明,BetaPRM 在保持标准步骤级错误检测的同时,改进了 PRM 引导的 Best-of-N 选择。基于此信号,ACA 改善了固定预算 Best-of-16 的准确率-令牌权衡,将令牌使用减少高达 33.57%,同时提高了最终答案的准确性。

延伸摘要

过程奖励模型(PRM)为推理提供步骤级反馈,但当前的 PRM 通常只为每个步骤输出一个单一的奖励分数。因此,下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号,而没有任何关于何时应信任这些预测的指示。我们提出 BetaPRM,一种分布式 PRM,同时预测步骤级成功概率和该预测的可靠性。给定来自蒙特卡洛延续的步骤成功监督,BetaPRM 学习一个 Beta 信念,通过 Beta-Binomial 似然解释观察到的成功延续数量,而不是将有限样本的成功率作为点目标进行回归。这种学习到的可靠性信号指示何时应信任步骤奖励,使下游应用能够区分可靠奖励和不确定奖励。作为一项应用,我们为 PRM 引导的 Best-of-N 推理引入了自适应计算分配(ACA)。ACA 使用学习到的可靠性信号,在高奖励解决方案可靠时停止,并在不确定的候选前缀上花费额外计算。在四个骨干模型和四个推理基准上的实验表明,BetaPRM 在保持标准步骤级错误检测的同时,改进了 PRM 引导的 Best-of-N 选择。基于此信号,ACA 改善了固定预算 Best-of-16 的准确率-令牌权衡,将令牌使用减少高达 33.57%,同时提高了最终答案的准确性。


关联概念

  • 过程奖励模型 (Process Reward Models, PRM)
  • Beta-Binomial 分布
  • 蒙特卡洛延续 (Monte Carlo continuations)
  • 自适应计算分配 (Adaptive Computation Allocation, ACA)
  • Best-of-N 推理

可操作项

可尝试在推理任务中实现 BetaPRM,使用 Beta-Binomial 似然训练 PRM,并应用 ACA 策略动态调整计算预算。具体步骤:1) 收集蒙特卡洛延续数据作为步骤成功监督;2) 训练 BetaPRM 预测 Beta 信念参数;3) 在 Best-of-N 推理中,根据可靠性信号决定是否停止或继续生成。


原文: Process Rewards with Learned Reliability
自动加工于 2026-05-20 11:28

#过程奖励模型#可靠性#自适应计算

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌在I/O大会上发布Gemini Omni多模态模型家族,可从图像、音频、文本等输入生成视频,支持跨模态推理和文本编辑照片,内置SynthID水印防深度伪造。

阅读全文 →
↗
精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍,并推出代理开发平台Antigravity。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦回滚服务、数据流管理和训练组件,支持多策略协作训练和弹性扩展。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

EnvFactory:通过可执行环境合成和稳健强化学习扩展工具使用智能体

EnvFactory是一个全自动框架,通过从真实资源中自主探索并验证可执行工具环境,结合拓扑感知采样和校准精炼合成自然的多轮轨迹,解决了智能体强化学习中可扩展执行环境缺乏和真实训练数据稀缺的问题。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA