EnvFactory是一个全自动框架,用于解决智能体强化学习(Agentic RL)中可扩展执行环境缺乏和真实训练数据稀缺的问题。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory生成了2575条SFT和RL轨迹,在BFCLv3、MCP-Atlas、τ²-Bench和VitaBench等基准上显著提升了Qwen3系列模型的性能(最高+15%)。
核心要点
- EnvFactory全自动构建可执行工具环境,无需昂贵真实API或易幻觉的LLM模拟器。
- 通过拓扑感知采样和校准精炼,生成自然的多轮轨迹,避免过度指定,更接近真实人类意图。
- 仅用85个环境(远少于先前工作的5倍以上)即实现更优训练效率和下游性能。
- 在Qwen3系列模型上,BFCLv3提升+15%,MCP-Atlas提升+8.6%,τ²-Bench和VitaBench提升+6%。
- 框架完全自动化环境构建和轨迹合成,为Agentic RL提供可扩展、可扩展且鲁棒的基础。
正文
通过智能体强化学习(Agentic RL)赋予LLM工具使用能力面临两大瓶颈:缺乏可扩展、鲁棒的执行环境,以及缺乏捕捉隐含人类推理的真实训练数据。现有方法依赖昂贵的真实世界API、易产生幻觉的LLM模拟器,或通常是单轮或依赖预收集文档的合成环境。此外,合成轨迹常常过度指定,类似于指令序列而非自然的人类意图,降低了RL训练的效果。
我们提出EnvFactory,一个全自动框架,同时解决这两个挑战。EnvFactory从真实资源中自主探索并验证有状态、可执行的工具环境,并通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory生成了2575条SFT和RL轨迹。尽管使用的环境数量远少于先前工作(通常多5倍),EnvFactory实现了更优的训练效率和下游性能,在BFCLv3上提升Qwen3系列模型高达+15%,在MCP-Atlas上+8.6%,在包括τ²-Bench和VitaBench的对话基准上+6%。通过完全自动化环境构建和轨迹合成,EnvFactory为Agentic RL提供了可扩展、可扩展且鲁棒的基础。
延伸摘要
通过智能体强化学习(Agentic RL)赋予LLM工具使用能力面临两大瓶颈:缺乏可扩展、鲁棒的执行环境,以及缺乏捕捉隐含人类推理的真实训练数据。现有方法依赖昂贵的真实世界API、易产生幻觉的LLM模拟器,或通常是单轮或依赖预收集文档的合成环境。此外,合成轨迹常常过度指定,类似于指令序列而非自然的人类意图,降低了RL训练的效果。
我们提出EnvFactory,一个全自动框架,同时解决这两个挑战。EnvFactory从真实资源中自主探索并验证有状态、可执行的工具环境,并通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境,EnvFactory生成了2575条SFT和RL轨迹。尽管使用的环境数量远少于先前工作(通常多5倍),EnvFactory实现了更优的训练效率和下游性能,在BFCLv3上提升Qwen3系列模型高达+15%,在MCP-Atlas上+8.6%,在包括τ²-Bench和VitaBench的对话基准上+6%。通过完全自动化环境构建和轨迹合成,EnvFactory为Agentic RL提供了可扩展、可扩展且鲁棒的基础。
关联概念
- 智能体强化学习 (Agentic RL)
- 工具使用能力 (Tool-use capabilities)
- 合成轨迹 (Synthetic trajectories)
- 拓扑感知采样 (Topology-aware sampling)
- 校准精炼 (Calibrated refinement)
可操作项
可尝试复现EnvFactory框架:1) 从GitHub仓库(https://github.com/LARK-AI-Lab/EnvFactory)获取代码;2) 按照文档配置环境,使用其自动化流程从真实资源构建可执行工具环境;3) 利用拓扑感知采样和校准精炼生成SFT和RL轨迹;4) 在Qwen3系列模型上应用生成的轨迹进行训练,并评估在BFCLv3、MCP-Atlas等基准上的性能提升。
原文: EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
自动加工于 2026-05-21 01:54