SkillsVote：从收集、推荐到演进的智能体技能全生命周期治理

SkillsVote是一个针对长周期LLM智能体的治理框架，通过结构化的收集、推荐和演化流程管理可复用的技能。该框架对百万级开源语料进行环境需求、质量和可验证性分析，合成可验证技能任务；执行前进行智能体库搜索以提供指导性技能上下文；执行后将轨迹分解为技能关联子任务，归因结果信号，仅允许成功的可复用发现进入证据门控更新。离线演化使GPT-5.2在Terminal-Bench 2.0上提升最多7.9个百分点，在线演化使SWE-Bench Pro提升最多2.6个百分点。

核心要点

SkillsVote将Agent技能定义为经验模式，耦合可执行脚本与不可执行的程序指导。
框架对百万级开源语料进行环境需求、质量和可验证性分析，并合成可验证技能任务。
执行前通过智能体库搜索结构化技能库，暴露指导性技能上下文。
执行后将轨迹分解为技能关联子任务，归因结果信号，仅允许成功的可复用发现进入证据门控更新。
离线演化使GPT-5.2在Terminal-Bench 2.0上提升最多7.9个百分点，在线演化使SWE-Bench Pro提升最多2.6个百分点。

正文

长周期LLM智能体留下的轨迹可以成为可复用的经验，但原始轨迹嘈杂且难以治理。我们将Agent技能视为一种经验模式，它耦合了可执行脚本与不可执行的程序指导。然而，开放的技能生态系统包含冗余、不均衡、对环境敏感的工件，不加区分的更新会污染未来上下文。我们提出SkillsVote，一个从收集、推荐到演化的Agent技能全生命周期治理框架。SkillsVote对百万级开源语料进行环境需求、质量和可验证性分析，然后为可验证技能合成任务。在执行前，SkillsVote对结构化技能库进行智能体库搜索，以暴露指导性技能上下文。执行后，它将轨迹分解为技能关联的子任务，将结果归因于技能使用、智能体探索、环境和结果信号，并仅允许成功的可复用发现进入证据门控更新。在我们的评估中，离线演化使GPT-5.2在Terminal-Bench 2.0上提升最多7.9个百分点，而在线演化使SWE-Bench Pro提升最多2.6个百分点。总体而言，当系统控制暴露、归因和保存时，受治理的外部技能库可以在不更新模型的情况下改进冻结的智能体。

关联概念

Agent技能
经验模式
可执行脚本
技能生态系统
生命周期治理框架
环境需求
可验证性
智能体库搜索
轨迹分解
证据门控更新
Terminal-Bench 2.0
SWE-Bench Pro

原文: SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution
自动加工于 2026-05-20 08:07

核心要点

正文

关联概念

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章