MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

EnvFactory:通过可执行环境合成和稳健强化学习扩展工具使用智能体

阅读原文 ↗

EnvFactory是一个全自动框架,用于解决智能体强化学习(Agentic RL)中可扩展执行环境缺乏和真实训练数据稀缺的问题。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory生成了2575条SFT和RL轨迹,在BFCLv3、MCP-Atlas、τ²-Bench和VitaBench等基准上显著提升了Qwen3系列模型的性能(最高+15%)。


核心要点

  1. EnvFactory全自动构建可执行工具环境,无需昂贵真实API或易幻觉的LLM模拟器。
  2. 通过拓扑感知采样和校准精炼,生成自然的多轮轨迹,避免过度指定,更接近真实人类意图。
  3. 仅用85个环境(远少于先前工作的5倍以上)即实现更优训练效率和下游性能。
  4. 在Qwen3系列模型上,BFCLv3提升+15%,MCP-Atlas提升+8.6%,τ²-Bench和VitaBench提升+6%。
  5. 框架完全自动化环境构建和轨迹合成,为Agentic RL提供可扩展、可扩展且鲁棒的基础。

正文

通过智能体强化学习(Agentic RL)赋予LLM工具使用能力面临两大瓶颈:缺乏可扩展、鲁棒的执行环境,以及缺乏捕捉隐含人类推理的真实训练数据。现有方法依赖昂贵的真实世界API、易产生幻觉的LLM模拟器,或通常是单轮或依赖预收集文档的合成环境。此外,合成轨迹常常过度指定,类似于指令序列而非自然的人类意图,降低了RL训练的效果。

我们提出EnvFactory,一个全自动框架,同时解决这两个挑战。EnvFactory从真实资源中自主探索并验证有状态、可执行的工具环境,并通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory生成了2575条SFT和RL轨迹。尽管使用的环境数量远少于先前工作(通常多5倍),EnvFactory实现了更优的训练效率和下游性能,在BFCLv3上提升Qwen3系列模型高达+15%,在MCP-Atlas上+8.6%,在包括τ²-Bench和VitaBench的对话基准上+6%。通过完全自动化环境构建和轨迹合成,EnvFactory为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

延伸摘要

通过智能体强化学习(Agentic RL)赋予LLM工具使用能力面临两大瓶颈:缺乏可扩展、鲁棒的执行环境,以及缺乏捕捉隐含人类推理的真实训练数据。现有方法依赖昂贵的真实世界API、易产生幻觉的LLM模拟器,或通常是单轮或依赖预收集文档的合成环境。此外,合成轨迹常常过度指定,类似于指令序列而非自然的人类意图,降低了RL训练的效果。

我们提出EnvFactory,一个全自动框架,同时解决这两个挑战。EnvFactory从真实资源中自主探索并验证有状态、可执行的工具环境,并通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory生成了2575条SFT和RL轨迹。尽管使用的环境数量远少于先前工作(通常多5倍),EnvFactory实现了更优的训练效率和下游性能,在BFCLv3上提升Qwen3系列模型高达+15%,在MCP-Atlas上+8.6%,在包括τ²-Bench和VitaBench的对话基准上+6%。通过完全自动化环境构建和轨迹合成,EnvFactory为Agentic RL提供了可扩展、可扩展且鲁棒的基础。


关联概念

  • 智能体强化学习 (Agentic RL)
  • 工具使用能力 (Tool-use capabilities)
  • 合成轨迹 (Synthetic trajectories)
  • 拓扑感知采样 (Topology-aware sampling)
  • 校准精炼 (Calibrated refinement)

可操作项

可尝试复现EnvFactory框架:1) 从GitHub仓库(https://github.com/LARK-AI-Lab/EnvFactory)获取代码;2) 按照文档配置环境,使用其自动化流程从真实资源构建可执行工具环境;3) 利用拓扑感知采样和校准精炼生成SFT和RL轨迹;4) 在Qwen3系列模型上应用生成的轨迹进行训练,并评估在BFCLv3、MCP-Atlas等基准上的性能提升。


原文: EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
自动加工于 2026-05-21 01:54

#智能体#强化学习#环境合成#工具使用

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌在I/O大会上发布Gemini Omni多模态模型家族,可从图像、音频、文本等输入生成视频,支持跨模态推理和文本编辑照片,内置SynthID水印防深度伪造。

阅读全文 →
↗
精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍,并推出代理开发平台Antigravity。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦回滚服务、数据流管理和训练组件,支持多策略协作训练和弹性扩展。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

GoLongRL:面向能力的长上下文强化学习与多任务对齐

GoLongRL 是一个完全开源的长上下文强化学习后训练方案,通过能力导向的数据构建和 TMN-Reweight 方法,解决了任务覆盖单一和奖励设计问题。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA