主动学习作为高效PRP重排序器

本文重新定义了成对排序提示（PRP）重排序问题，将其视为从噪声成对比较中进行主动学习。传统方法依赖排序算法恢复完整排列，但在调用预算受限时无法可靠地生成top-K结果。作者提出主动排序器作为即插即用替代方案，在调用约束下显著提升NDCG@10。同时引入随机方向预言机，将系统位置偏差转化为零均值噪声，实现无偏聚合排序，且无需双向调用成本。

核心要点

将PRP重排序重新定义为从噪声成对比较中进行主动学习，而非传统排序问题
主动排序器作为即插即用替代方案，在调用约束下提升NDCG@10
传统排序算法假设无噪声、可传递，但LLM判断存在噪声、顺序敏感且有时不可传递
随机方向预言机使用单次LLM调用，将位置偏差转化为零均值噪声，实现无偏聚合
该方法无需双向调用，降低了成本并提高了排序质量

正文

原始摘要

成对排序提示（PRP）从LLM中引出成对偏好判断，然后通过经典排序算法聚合成一个排序。然而，这些判断存在噪声、对顺序敏感，有时甚至不可传递，因此排序假设与实际情况不符。由于排序旨在恢复完整排列，截断排序以满足调用预算并不能产生可靠的top-K结果。因此，我们将PRP重排序重新定义为从噪声成对比较中进行主动学习，并证明主动排序器是即插即用的替代方案，在调用约束下能提升每次调用的NDCG@10。我们的噪声鲁棒框架还引入了一个随机方向预言机，每对仅使用一次LLM调用。该方法将系统位置偏差转化为零均值噪声，无需双向调用成本即可实现无偏聚合排序。

延伸摘要

关联概念

成对排序提示 (PRP)
主动学习
噪声成对比较
NDCG@10
位置偏差
随机方向预言机

可操作项

可尝试将现有PRP重排序系统中的排序算法替换为主动学习排序器（如基于不确定性的采样），并在调用预算受限场景下评估NDCG@10提升。同时，可集成随机方向预言机，通过随机化比较方向来消除位置偏差，无需双向调用。

原文: Active Learners as Efficient PRP Rerankers
自动加工于 2026-05-21 01:53

核心要点

正文

原始摘要

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章