AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计。它通过将回滚服务、数据流管理和训练解耦为自主组件,取代了传统的以训练器为中心的控制架构,从而原生支持多策略协作训练、弹性扩展和异构跨区域计算资源的高效利用。实验表明,在数学、代码、搜索和 AgentBench 等任务上,AstraFlow 无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法,在多策略协作训练中训练速度提升 2.7 倍,精度与现有系统相当或更优。
核心要点
- AstraFlow 采用面向数据流的架构,将回滚服务、数据流管理和训练解耦为自主组件,取代传统以训练器为中心的控制架构。
- 系统原生支持多策略协作训练、弹性扩展和异构跨区域计算资源的高效利用,无需系统级代码更改。
- 在数学、代码、搜索和 AgentBench 等任务上验证了多策略训练、弹性扩展、异构跨区域执行和可组合数据算法的能力。
- 在多策略协作训练中,AstraFlow 训练速度提升 2.7 倍,精度与现有系统相当或更优。
- 现有 LLM RL 系统因以训练器为中心的控制架构和缺乏原则性组件抽象,导致每次扩展都需要专门的系统工程,AstraFlow 通过原则性组件抽象解决了这一负担。
正文
原始摘要
强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体强化学习仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中一些能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,回滚服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。
延伸摘要
强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体强化学习仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中一些能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,回滚服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。
关联概念
- 强化学习 (Reinforcement Learning, RL)
- 大语言模型 (Large Language Models, LLMs)
- 智能体强化学习 (Agentic RL)
- 多策略协作训练 (Multi-policy Collaborative Training)
- 弹性扩展 (Elastic Scaling)
- 异构计算资源 (Heterogeneous Compute Resources)
- 面向数据流的系统 (Dataflow-oriented System)
- 以训练器为中心的控制 (Trainer-centered Control)
可操作项
对于希望实践 AstraFlow 的开发者,可以访问其 GitHub 仓库(https://github.com/Infini-AI-Lab/astraflow)获取代码和文档,尝试在多策略协作训练、弹性扩展或异构跨区域执行场景中部署和测试该系统。
原文: AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
自动加工于 2026-05-21 01:54