GoLongRL 是一个完全开源、面向能力的长上下文强化学习后训练方案。它通过能力导向的数据构建(包含 23K 样本、9 种任务类型)和 TMN-Reweight 方法(任务级均值归一化与难度自适应加权),解决了现有方法任务覆盖单一、奖励设计不充分的问题。实验表明,该方案在同等 GRPO 设置下优于闭源 QwenLong-L1.5 数据集,且 Qwen3-30B-A3B 模型性能接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507。
核心要点
- 提出能力导向的数据构建方法,基于长上下文能力分类法,覆盖 9 种任务类型,每个任务配有自然评估指标。
- 开源发布 23K RLVR 样本数据集、完整构建流程和训练代码,数据来源包括书籍、学术论文和多轮对话。
- 在相同 vanilla GRPO 设置下,该数据集性能优于闭源 QwenLong-L1.5 数据集。
- Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507。
- 提出 TMN-Reweight 方法,结合任务级均值归一化和难度自适应加权,解决异构奖励优化问题,提升平均性能并保持通用能力。
正文
我们提出 GoLongRL,一个完全开源、面向能力的长上下文强化学习后训练方案,使用可验证奖励(RLVR)。现有的长上下文 RL 方法通常将数据构建视为设计越来越复杂的检索路径,导致任务覆盖同质化,奖励公式不能充分反映实际长上下文需求。我们的工作有两个贡献:
(1) 能力导向的数据构建与完全开源。我们公开发布了一个包含 23K RLVR 样本的数据集、完整的构建流程和所有训练代码。在长上下文能力分类法的指导下,该数据集涵盖 9 种任务类型,每种类型都配有自然评估指标。它包含来自已有语料库的精选开源样本,以及从真实源文档(如书籍、学术论文和多轮对话)生成的合成样本。在相同的 vanilla GRPO 设置下,我们的数据集性能优于闭源的 QwenLong-L1.5 数据集。此外,基于该数据训练的 Qwen3-30B-A3B 模型在长上下文任务上表现与 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507 相当,表明更广的覆盖范围和更大的奖励多样性显著有利于长上下文能力提升。
(2) 用于异构多任务优化的 TMN-Reweight。为了解决异构奖励带来的优化挑战,我们提出 TMN-Reweight,它结合了任务级均值归一化(用于跨任务奖励尺度对齐)和难度自适应加权(用于更可靠的优势估计)。TMN-Reweight 进一步提升了 vanilla GRPO 的平均性能,并且在报告的评估中,通用能力得到保持或提升。
关联概念
- 强化学习(Reinforcement Learning)
- 长上下文(Long Context)
- 可验证奖励(Verifiable Rewards)
- GRPO(Group Relative Policy Optimization)
- 任务级均值归一化(Task-level Mean Normalization)
- 难度自适应加权(Difficulty-adaptive Weighting)
可操作项
可动手实践的内容:1. 访问 GitHub 仓库 (https://github.com/xiaoxuanNLP/GoLongRL) 获取开源数据集、构建流程和训练代码。2. 按照论文描述,使用 GoLongRL 数据集和 TMN-Reweight 方法在自己的长上下文 RLVR 任务上进行训练和评估。3. 参考能力分类法,设计更多样化的长上下文任务类型以提升模型能力。
原文: GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
自动加工于 2026-05-21 01:54