MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

阅读原文 ↗

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计。它通过将部署服务、数据流管理和训练解耦为自主组件,取代传统的以训练器为中心的控制架构,原生支持多策略协作训练、弹性扩展和异构跨区域计算资源的高效利用。实验表明,在多策略协作训练中,AstraFlow 在保持与现有系统相当或更优精度的同时,训练速度提升 2.7 倍。


核心要点

  1. AstraFlow 采用面向数据流的架构,将部署服务、数据流管理和训练解耦为自主组件,取代传统的以训练器为中心的控制。
  2. 系统原生支持多策略协作训练、弹性扩展、异构跨区域执行和可组合数据算法,无需系统级代码更改。
  3. 在多策略协作训练中,AstraFlow 实现与现有系统相当或更优的精度,同时训练速度提升 2.7 倍。
  4. 系统在数学、代码、搜索和 AgentBench 工作负载上进行了评估,展示了其通用性和效率。
  5. 现有 LLM RL 系统因训练器中心化控制架构和缺乏原则性组件抽象,导致每次扩展都需要专门的系统工程,AstraFlow 解决了这一瓶颈。

正文

原始摘要

强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体 RL 仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中部分能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性的组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,部署服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。

延伸摘要

强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体 RL 仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中部分能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性的组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,部署服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。


关联概念

  • 强化学习 (Reinforcement Learning, RL)
  • 大语言模型 (Large Language Models, LLMs)
  • 智能体 RL (Agentic RL)
  • 多策略协作训练 (Multi-policy Collaborative Training)
  • 弹性扩展 (Elastic Scaling)
  • 异构计算资源 (Heterogeneous Compute Resources)
  • 数据流系统 (Dataflow System)
  • 训练器中心化控制 (Trainer-centered Control)

可操作项

访问 GitHub 仓库 https://github.com/Infini-AI-Lab/astraflow 获取代码和文档,尝试部署 AstraFlow 并运行示例工作负载(如数学、代码、搜索任务),以体验其多策略训练和弹性扩展功能。


原文: AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
自动加工于 2026-05-20 11:26

#强化学习#大语言模型#数据流#智能体

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一多模态模型,通过协作多任务训练实现图像和视频的理解、生成与编辑,采用双流混合专家架构和共享交错多模态序列,探索不依赖规模扩展的实用范式。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Aurora:使用工具代理的统一视频编辑框架

Aurora 是一个代理式视频编辑框架,结合视觉语言模型代理与统一视频扩散变换器,通过结构化编辑计划和自动参考图像选择解决用户请求歧义问题。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA