基于学习可靠性的过程奖励

BetaPRM 提出了一种分布式的过程奖励模型，不仅预测步骤级的成功概率，还预测该预测的可靠性。通过 Beta-Binomial 似然学习 Beta 信念，从而区分可靠与不确定的奖励。基于此信号，自适应计算分配（ACA）在 Best-of-N 推理中动态调整计算量，在保持准确率的同时，最多可减少 33.57% 的 token 使用量。

核心要点

BetaPRM 预测步骤级成功概率及其可靠性，而非单一奖励分数。
使用 Beta-Binomial 似然学习 Beta 信念，避免直接回归有限样本成功率。
自适应计算分配（ACA）在奖励可靠时停止，在不确定时增加计算。
在四个骨干模型和四个推理基准上，BetaPRM 提升了 Best-of-N 选择性能。
ACA 相比固定预算 Best-of-16，token 使用量减少最多 33.57%，同时提升最终答案准确率。

正文

原始摘要

过程奖励模型（PRM）为推理提供步骤级反馈，但当前的 PRM 通常只为每个步骤输出一个单一的奖励分数。因此，下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号，而没有任何关于何时应信任这些预测的指示。我们提出了 BetaPRM，一种分布式的 PRM，它同时预测步骤级的成功概率和该预测的可靠性。给定来自蒙特卡洛延续的步骤成功监督，BetaPRM 学习一个 Beta 信念，通过 Beta-Binomial 似然解释观察到的成功延续数量，而不是将有限样本的成功率作为点目标进行回归。这种学习到的可靠性信号指示何时应信任步骤奖励，使下游应用能够区分可靠奖励和不确定奖励。作为一项应用，我们引入了用于 PRM 引导的 Best-of-N 推理的自适应计算分配（ACA）。ACA 利用学习到的可靠性信号，在高奖励解决方案可靠时停止，并在不确定的候选前缀上花费额外计算。在四个骨干模型和四个推理基准上的实验表明，BetaPRM 在保持标准步骤级错误检测的同时，改进了 PRM 引导的 Best-of-N 选择。基于此信号，ACA 改善了准确率与 token 使用量的权衡，相比固定预算的 Best-of-16，token 使用量最多减少 33.57%，同时提高了最终答案的准确率。

延伸摘要

关联概念

过程奖励模型 (Process Reward Models, PRM)
Beta-Binomial 分布
蒙特卡洛延续 (Monte Carlo continuations)
自适应计算分配 (Adaptive Computation Allocation, ACA)
Best-of-N 推理

可操作项

可尝试复现 BetaPRM 模型，使用其开源代码（https://github.com/JinYuanLi0012/Beta-Binomial-PRM）在推理任务中训练分布式 PRM，并应用 ACA 策略优化计算效率。

原文: Process Rewards with Learned Reliability
自动加工于 2026-05-20 08:07

核心要点

正文

原始摘要

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章