AstraFlow：面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统，专为智能体大语言模型设计。它通过将部署服务、数据流管理和训练解耦为自主组件，取代传统的以训练器为中心的控制架构，原生支持多策略协作训练、弹性扩展和异构跨区域计算资源的高效利用。实验表明，在多策略协作训练中，AstraFlow 在保持与现有系统相当或更优精度的同时，训练速度提升 2.7 倍。

核心要点

AstraFlow 采用面向数据流的架构，将部署服务、数据流管理和训练解耦为自主组件，取代传统的以训练器为中心的控制。
系统原生支持多策略协作训练、弹性扩展、异构跨区域执行和可组合数据算法，无需系统级代码更改。
在多策略协作训练中，AstraFlow 实现与现有系统相当或更优的精度，同时训练速度提升 2.7 倍。
系统在数学、代码、搜索和 AgentBench 工作负载上进行了评估，展示了其通用性和效率。
现有 LLM RL 系统因训练器中心化控制架构和缺乏原则性组件抽象，导致每次扩展都需要专门的系统工程，AstraFlow 解决了这一瓶颈。

正文

原始摘要

强化学习（RL）越来越多地被用于提升大语言模型的推理、编码和工具使用能力，但智能体 RL 仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载，包括多策略协作训练，同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中部分能力，但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制，我们提出了 AstraFlow，一种面向数据流的 RL 系统，它用原则性的组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中，部署服务、数据流管理和训练被解耦为自主组件，使系统能够原生支持复杂的多策略智能体 RL 工作负载，并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow，结果表明，同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中，AstraFlow 实现了与现有 RL 系统相当或更优的精度，同时训练速度提升了 2.7 倍。

延伸摘要

关联概念

强化学习 (Reinforcement Learning, RL)
大语言模型 (Large Language Models, LLMs)
智能体 RL (Agentic RL)
多策略协作训练 (Multi-policy Collaborative Training)
弹性扩展 (Elastic Scaling)
异构计算资源 (Heterogeneous Compute Resources)
数据流系统 (Dataflow System)
训练器中心化控制 (Trainer-centered Control)

可操作项

访问 GitHub 仓库 https://github.com/Infini-AI-Lab/astraflow 获取代码和文档，尝试部署 AstraFlow 并运行示例工作负载（如数学、代码、搜索任务），以体验其多策略训练和弹性扩展功能。

原文: AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
自动加工于 2026-05-20 11:26

核心要点

正文

原始摘要

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

Aurora：使用工具代理的统一视频编辑框架

更多 AI·模型文章