EnvFactory：通过可执行环境合成和稳健强化学习扩展工具使用智能体

EnvFactory是一个全自动框架，用于解决智能体强化学习（Agentic RL）中可扩展执行环境缺乏和真实训练数据稀缺的问题。它从真实资源中自主探索并验证有状态、可执行的工具环境，通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境，EnvFactory生成了2575条SFT和RL轨迹，在BFCLv3、MCP-Atlas、τ²-Bench和VitaBench等基准上显著提升了Qwen3系列模型的性能（最高+15%）。

核心要点

EnvFactory全自动构建可执行工具环境，无需昂贵真实API或易幻觉的LLM模拟器。
通过拓扑感知采样和校准精炼，生成自然的多轮轨迹，避免过度指定，更接近真实人类意图。
仅用85个环境（远少于先前工作的5倍以上）即实现更优训练效率和下游性能。
在Qwen3系列模型上，BFCLv3提升+15%，MCP-Atlas提升+8.6%，τ²-Bench和VitaBench提升+6%。
框架完全自动化环境构建和轨迹合成，为Agentic RL提供可扩展、可扩展且鲁棒的基础。

正文

通过智能体强化学习（Agentic RL）赋予LLM工具使用能力面临两大瓶颈：缺乏可扩展、鲁棒的执行环境，以及缺乏捕捉隐含人类推理的真实训练数据。现有方法依赖昂贵的真实世界API、易产生幻觉的LLM模拟器，或通常是单轮或依赖预收集文档的合成环境。此外，合成轨迹常常过度指定，类似于指令序列而非自然的人类意图，降低了RL训练的效果。

我们提出EnvFactory，一个全自动框架，同时解决这两个挑战。EnvFactory从真实资源中自主探索并验证有状态、可执行的工具环境，并通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐含意图的接地查询。仅使用7个领域的85个验证环境，EnvFactory生成了2575条SFT和RL轨迹。尽管使用的环境数量远少于先前工作（通常多5倍），EnvFactory实现了更优的训练效率和下游性能，在BFCLv3上提升Qwen3系列模型高达+15%，在MCP-Atlas上+8.6%，在包括τ²-Bench和VitaBench的对话基准上+6%。通过完全自动化环境构建和轨迹合成，EnvFactory为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

延伸摘要

关联概念

智能体强化学习 (Agentic RL)
工具使用能力 (Tool-use capabilities)
合成轨迹 (Synthetic trajectories)
拓扑感知采样 (Topology-aware sampling)
校准精炼 (Calibrated refinement)

可操作项

可尝试复现EnvFactory框架：1) 从GitHub仓库（https://github.com/LARK-AI-Lab/EnvFactory）获取代码；2) 按照文档配置环境，使用其自动化流程从真实资源构建可执行工具环境；3) 利用拓扑感知采样和校准精炼生成SFT和RL轨迹；4) 在Qwen3系列模型上应用生成的轨迹进行训练，并评估在BFCLv3、MCP-Atlas等基准上的性能提升。

原文: EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
自动加工于 2026-05-21 01:54

核心要点

正文

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

AstraFlow：面向数据流的智能体大语言模型强化学习系统

GoLongRL：面向能力的长上下文强化学习与多任务对齐

更多 AI·模型文章