MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

阅读原文 ↗

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计。它通过将回滚服务、数据流管理和训练解耦为自主组件,取代了传统的以训练器为中心的控制架构,从而原生支持多策略协作训练、弹性扩展和异构跨区域计算资源的高效利用。实验表明,在数学、代码、搜索和 AgentBench 等任务上,AstraFlow 无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法,在多策略协作训练中训练速度提升 2.7 倍,精度与现有系统相当或更优。


核心要点

  1. AstraFlow 采用面向数据流的架构,将回滚服务、数据流管理和训练解耦为自主组件,取代传统以训练器为中心的控制架构。
  2. 系统原生支持多策略协作训练、弹性扩展和异构跨区域计算资源的高效利用,无需系统级代码更改。
  3. 在数学、代码、搜索和 AgentBench 等任务上验证了多策略训练、弹性扩展、异构跨区域执行和可组合数据算法的能力。
  4. 在多策略协作训练中,AstraFlow 训练速度提升 2.7 倍,精度与现有系统相当或更优。
  5. 现有 LLM RL 系统因以训练器为中心的控制架构和缺乏原则性组件抽象,导致每次扩展都需要专门的系统工程,AstraFlow 通过原则性组件抽象解决了这一负担。

正文

原始摘要

强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体强化学习仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中一些能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,回滚服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。

延伸摘要

强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但智能体强化学习仍然成本高昂。将 RL 扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练,同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM RL 系统支持其中一些能力,但每次新的扩展通常需要专门的系统工程。这一负担源于以训练器为中心的控制架构以及缺乏对 RL 系统组件的原则性抽象。为了解决这些限制,我们提出了 AstraFlow,一种面向数据流的 RL 系统,它用原则性组件抽象取代了传统的以训练器为中心的控制。在 AstraFlow 中,回滚服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体 RL 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上评估了 AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行和可组合数据算法。在多策略协作训练中,AstraFlow 实现了与现有 RL 系统相当或更优的精度,同时训练速度提升了 2.7 倍。


关联概念

  • 强化学习 (Reinforcement Learning, RL)
  • 大语言模型 (Large Language Models, LLMs)
  • 智能体强化学习 (Agentic RL)
  • 多策略协作训练 (Multi-policy Collaborative Training)
  • 弹性扩展 (Elastic Scaling)
  • 异构计算资源 (Heterogeneous Compute Resources)
  • 面向数据流的系统 (Dataflow-oriented System)
  • 以训练器为中心的控制 (Trainer-centered Control)

可操作项

对于希望实践 AstraFlow 的开发者,可以访问其 GitHub 仓库(https://github.com/Infini-AI-Lab/astraflow)获取代码和文档,尝试在多策略协作训练、弹性扩展或异构跨区域执行场景中部署和测试该系统。


原文: AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
自动加工于 2026-05-21 01:54

#强化学习#大语言模型#数据流#智能体

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌在I/O大会上发布Gemini Omni多模态模型家族,可从图像、音频、文本等输入生成视频,支持跨模态推理和文本编辑照片,内置SynthID水印防深度伪造。

阅读全文 →
↗
精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍,并推出代理开发平台Antigravity。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

EnvFactory:通过可执行环境合成和稳健强化学习扩展工具使用智能体

EnvFactory是一个全自动框架,通过从真实资源中自主探索并验证可执行工具环境,结合拓扑感知采样和校准精炼合成自然的多轮轨迹,解决了智能体强化学习中可扩展执行环境缺乏和真实训练数据稀缺的问题。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

GoLongRL:面向能力的长上下文强化学习与多任务对齐

GoLongRL 是一个完全开源的长上下文强化学习后训练方案,通过能力导向的数据构建和 TMN-Reweight 方法,解决了任务覆盖单一和奖励设计问题。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA