MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

基于学习可靠性的过程奖励

阅读原文 ↗

BetaPRM 提出了一种分布式的过程奖励模型,不仅预测步骤级的成功概率,还预测该预测的可靠性。通过 Beta-Binomial 似然学习 Beta 信念,从而区分可靠与不确定的奖励。基于此信号,自适应计算分配(ACA)在 Best-of-N 推理中动态调整计算量,在保持准确率的同时,最多可减少 33.57% 的 token 使用量。


核心要点

  1. BetaPRM 预测步骤级成功概率及其可靠性,而非单一奖励分数。
  2. 使用 Beta-Binomial 似然学习 Beta 信念,避免直接回归有限样本成功率。
  3. 自适应计算分配(ACA)在奖励可靠时停止,在不确定时增加计算。
  4. 在四个骨干模型和四个推理基准上,BetaPRM 提升了 Best-of-N 选择性能。
  5. ACA 相比固定预算 Best-of-16,token 使用量减少最多 33.57%,同时提升最终答案准确率。

正文


原始摘要

过程奖励模型(PRM)为推理提供步骤级反馈,但当前的 PRM 通常只为每个步骤输出一个单一的奖励分数。因此,下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号,而没有任何关于何时应信任这些预测的指示。我们提出了 BetaPRM,一种分布式的 PRM,它同时预测步骤级的成功概率和该预测的可靠性。给定来自蒙特卡洛延续的步骤成功监督,BetaPRM 学习一个 Beta 信念,通过 Beta-Binomial 似然解释观察到的成功延续数量,而不是将有限样本的成功率作为点目标进行回归。这种学习到的可靠性信号指示何时应信任步骤奖励,使下游应用能够区分可靠奖励和不确定奖励。作为一项应用,我们引入了用于 PRM 引导的 Best-of-N 推理的自适应计算分配(ACA)。ACA 利用学习到的可靠性信号,在高奖励解决方案可靠时停止,并在不确定的候选前缀上花费额外计算。在四个骨干模型和四个推理基准上的实验表明,BetaPRM 在保持标准步骤级错误检测的同时,改进了 PRM 引导的 Best-of-N 选择。基于此信号,ACA 改善了准确率与 token 使用量的权衡,相比固定预算的 Best-of-16,token 使用量最多减少 33.57%,同时提高了最终答案的准确率。

延伸摘要

过程奖励模型(PRM)为推理提供步骤级反馈,但当前的 PRM 通常只为每个步骤输出一个单一的奖励分数。因此,下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号,而没有任何关于何时应信任这些预测的指示。我们提出了 BetaPRM,一种分布式的 PRM,它同时预测步骤级的成功概率和该预测的可靠性。给定来自蒙特卡洛延续的步骤成功监督,BetaPRM 学习一个 Beta 信念,通过 Beta-Binomial 似然解释观察到的成功延续数量,而不是将有限样本的成功率作为点目标进行回归。这种学习到的可靠性信号指示何时应信任步骤奖励,使下游应用能够区分可靠奖励和不确定奖励。作为一项应用,我们引入了用于 PRM 引导的 Best-of-N 推理的自适应计算分配(ACA)。ACA 利用学习到的可靠性信号,在高奖励解决方案可靠时停止,并在不确定的候选前缀上花费额外计算。在四个骨干模型和四个推理基准上的实验表明,BetaPRM 在保持标准步骤级错误检测的同时,改进了 PRM 引导的 Best-of-N 选择。基于此信号,ACA 改善了准确率与 token 使用量的权衡,相比固定预算的 Best-of-16,token 使用量最多减少 33.57%,同时提高了最终答案的准确率。


关联概念

  • 过程奖励模型 (Process Reward Models, PRM)
  • Beta-Binomial 分布
  • 蒙特卡洛延续 (Monte Carlo continuations)
  • 自适应计算分配 (Adaptive Computation Allocation, ACA)
  • Best-of-N 推理

可操作项

可尝试复现 BetaPRM 模型,使用其开源代码(https://github.com/JinYuanLi0012/Beta-Binomial-PRM)在推理任务中训练分布式 PRM,并应用 ACA 策略优化计算效率。


原文: Process Rewards with Learned Reliability
自动加工于 2026-05-20 08:07

#过程奖励模型#自适应计算#推理优化

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA