SkillsVote是一个针对长周期LLM智能体的治理框架,通过结构化的收集、推荐和演化流程管理可复用的技能。该框架对百万级开源语料进行环境需求、质量和可验证性分析,合成可验证技能任务;执行前进行智能体库搜索以提供指导性技能上下文;执行后将轨迹分解为技能关联子任务,归因结果信号,仅允许成功的可复用发现进入证据门控更新。离线演化使GPT-5.2在Terminal-Bench 2.0上提升最多7.9个百分点,在线演化使SWE-Bench Pro提升最多2.6个百分点。
核心要点
- SkillsVote将Agent技能定义为经验模式,耦合可执行脚本与不可执行的程序指导。
- 框架对百万级开源语料进行环境需求、质量和可验证性分析,并合成可验证技能任务。
- 执行前通过智能体库搜索结构化技能库,暴露指导性技能上下文。
- 执行后将轨迹分解为技能关联子任务,归因结果信号,仅允许成功的可复用发现进入证据门控更新。
- 离线演化使GPT-5.2在Terminal-Bench 2.0上提升最多7.9个百分点,在线演化使SWE-Bench Pro提升最多2.6个百分点。
正文
长周期LLM智能体留下的轨迹可以成为可复用的经验,但原始轨迹嘈杂且难以治理。我们将Agent技能视为一种经验模式,它耦合了可执行脚本与不可执行的程序指导。然而,开放的技能生态系统包含冗余、不均衡、对环境敏感的工件,不加区分的更新会污染未来上下文。我们提出SkillsVote,一个从收集、推荐到演化的Agent技能全生命周期治理框架。SkillsVote对百万级开源语料进行环境需求、质量和可验证性分析,然后为可验证技能合成任务。在执行前,SkillsVote对结构化技能库进行智能体库搜索,以暴露指导性技能上下文。执行后,它将轨迹分解为技能关联的子任务,将结果归因于技能使用、智能体探索、环境和结果信号,并仅允许成功的可复用发现进入证据门控更新。在我们的评估中,离线演化使GPT-5.2在Terminal-Bench 2.0上提升最多7.9个百分点,而在线演化使SWE-Bench Pro提升最多2.6个百分点。总体而言,当系统控制暴露、归因和保存时,受治理的外部技能库可以在不更新模型的情况下改进冻结的智能体。
关联概念
- Agent技能
- 经验模式
- 可执行脚本
- 技能生态系统
- 生命周期治理框架
- 环境需求
- 可验证性
- 智能体库搜索
- 轨迹分解
- 证据门控更新
- Terminal-Bench 2.0
- SWE-Bench Pro
原文: SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution
自动加工于 2026-05-20 08:07