MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

主动学习作为高效PRP重排序器

阅读原文 ↗

本文重新定义了成对排序提示(PRP)重排序问题,将其视为从噪声成对比较中进行主动学习。传统方法依赖排序算法恢复完整排列,但在调用预算受限时无法可靠地生成top-K结果。作者提出主动排序器作为即插即用替代方案,在调用约束下显著提升NDCG@10。同时引入随机方向预言机,将系统位置偏差转化为零均值噪声,实现无偏聚合排序,且无需双向调用成本。


核心要点

  1. 将PRP重排序重新定义为从噪声成对比较中进行主动学习,而非传统排序问题
  2. 主动排序器作为即插即用替代方案,在调用约束下提升NDCG@10
  3. 传统排序算法假设无噪声、可传递,但LLM判断存在噪声、顺序敏感且有时不可传递
  4. 随机方向预言机使用单次LLM调用,将位置偏差转化为零均值噪声,实现无偏聚合
  5. 该方法无需双向调用,降低了成本并提高了排序质量

正文

原始摘要

成对排序提示(PRP)从LLM中引出成对偏好判断,然后通过经典排序算法聚合成一个排序。然而,这些判断存在噪声、对顺序敏感,有时甚至不可传递,因此排序假设与实际情况不符。由于排序旨在恢复完整排列,截断排序以满足调用预算并不能产生可靠的top-K结果。因此,我们将PRP重排序重新定义为从噪声成对比较中进行主动学习,并证明主动排序器是即插即用的替代方案,在调用约束下能提升每次调用的NDCG@10。我们的噪声鲁棒框架还引入了一个随机方向预言机,每对仅使用一次LLM调用。该方法将系统位置偏差转化为零均值噪声,无需双向调用成本即可实现无偏聚合排序。

延伸摘要

成对排序提示(PRP)从LLM中引出成对偏好判断,然后通过经典排序算法聚合成一个排序。然而,这些判断存在噪声、对顺序敏感,有时甚至不可传递,因此排序假设与实际情况不符。由于排序旨在恢复完整排列,截断排序以满足调用预算并不能产生可靠的top-K结果。因此,我们将PRP重排序重新定义为从噪声成对比较中进行主动学习,并证明主动排序器是即插即用的替代方案,在调用约束下能提升每次调用的NDCG@10。我们的噪声鲁棒框架还引入了一个随机方向预言机,每对仅使用一次LLM调用。该方法将系统位置偏差转化为零均值噪声,无需双向调用成本即可实现无偏聚合排序。


关联概念

  • 成对排序提示 (PRP)
  • 主动学习
  • 噪声成对比较
  • NDCG@10
  • 位置偏差
  • 随机方向预言机

可操作项

可尝试将现有PRP重排序系统中的排序算法替换为主动学习排序器(如基于不确定性的采样),并在调用预算受限场景下评估NDCG@10提升。同时,可集成随机方向预言机,通过随机化比较方向来消除位置偏差,无需双向调用。


原文: Active Learners as Efficient PRP Rerankers
自动加工于 2026-05-21 01:53

#主动学习#重排序#PRP#NDCG

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA