AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计。它通过将部署服务、数据流管理和训练解耦为自主组件,取代传统的以训练器为中心的控制架构,原生支持多策略协作训练、弹性扩展和异构跨区域计算资源的高效利用。实验表明,在多策略协作训练中,AstraFlow 在保持与现有系统相当或更优精度的同时,训练速度提升 2.7 倍。
核心要点
- AstraFlow 采用面向数据流的架构,将部署服务、数据流管理和训练解耦为自主组件,取代传统的以训练器为中心的控制。
- 系统原生支持多策略协作训练、弹性扩展、异构跨区域执行和可组合数据算法,无需系统级代码更改。
- 在多策略协作训练中,AstraFlow 实现与现有系统相当或更优的精度,同时训练速度提升 2.7 倍。
- 系统在数学、代码、搜索和 AgentBench 工作负载上进行了评估,展示了其通用性和效率。
- 现有 LLM RL 系统因训练器中心化控制架构和缺乏原则性组件抽象,导致每次扩展都需要专门的系统工程,AstraFlow 解决了这一瓶颈。
正文
原始摘要
强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体 RL 仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中部分能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性的组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,部署服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。
延伸摘要
强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体 RL 仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中部分能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性的组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,部署服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。
关联概念
- 强化学习 (Reinforcement Learning, RL)
- 大语言模型 (Large Language Models, LLMs)
- 智能体 RL (Agentic RL)
- 多策略协作训练 (Multi-policy Collaborative Training)
- 弹性扩展 (Elastic Scaling)
- 异构计算资源 (Heterogeneous Compute Resources)
- 数据流系统 (Dataflow System)
- 训练器中心化控制 (Trainer-centered Control)
可操作项
访问 GitHub 仓库 https://github.com/Infini-AI-Lab/astraflow 获取代码和文档,尝试部署 AstraFlow 并运行示例工作负载(如数学、代码、搜索任务),以体验其多策略训练和弹性扩展功能。
原文: AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
自动加工于 2026-05-20 11:26