MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

SkillsVote:从收集、推荐到演化的智能体技能生命周期治理

阅读原文 ↗

SkillsVote是一个针对长周期LLM智能体的治理框架,通过结构化的收集、推荐和演化流程管理可复用技能。该框架对百万级开源语料进行环境需求、质量和可验证性分析,合成可验证技能任务。执行前进行智能体库搜索,执行后将轨迹分解为技能关联子任务,仅将成功的可复用发现纳入证据门控更新。离线演化使GPT-5.2在Terminal-Bench 2.0上提升7.9个百分点,在线演化使SWE-Bench Pro提升2.6个百分点。


核心要点

  1. SkillsVote将Agent技能定义为经验模式,耦合可执行脚本与不可执行的程序指导
  2. 框架对百万级开源语料进行环境需求、质量和可验证性分析,并合成可验证技能任务
  3. 执行前进行智能体库搜索,执行后分解轨迹为技能关联子任务,仅将成功发现纳入证据门控更新
  4. 离线演化使GPT-5.2在Terminal-Bench 2.0上提升7.9个百分点
  5. 在线演化使SWE-Bench Pro提升2.6个百分点,证明受治理的外部技能库可提升冻结智能体性能

正文

作者: Hongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong 等

提交者: · 投票: 112

发布时间: 2026-05-18T00:00:00.000Z

代码: https://github.com/MemTensor/skills-vote

链接: https://huggingface.co/papers/2605.18401

原始摘要

长周期LLM智能体会留下可成为可复用经验的轨迹,但原始轨迹嘈杂且难以治理。我们将Agent技能视为一种经验模式,耦合可执行脚本与不可执行的程序指导。然而,开放的技能生态系统包含冗余、不均衡、对环境敏感的人工制品,不加区分的更新会污染未来上下文。我们提出SkillsVote,一个从收集、推荐到演化的Agent技能生命周期治理框架。SkillsVote对百万级开源语料进行环境需求、质量和可验证性分析,然后为可验证技能合成任务。执行前,SkillsVote在结构化技能库上进行智能体库搜索,以暴露指导性技能上下文。执行后,它将轨迹分解为技能关联的子任务,将结果归因于技能使用、智能体探索、环境和结果信号,仅将成功的可复用发现纳入证据门控更新。在我们的评估中,离线演化使GPT-5.2在Terminal-Bench 2.0上提升高达7.9个百分点,而在线演化使SWE-Bench Pro提升高达2.6个百分点。总体而言,当系统控制暴露、归因和保存时,受治理的外部技能库可以在不更新模型的情况下提升冻结智能体的性能。

延伸摘要

长周期LLM智能体会留下可成为可复用经验的轨迹,但原始轨迹嘈杂且难以治理。我们将Agent技能视为一种经验模式,耦合可执行脚本与不可执行的程序指导。然而,开放的技能生态系统包含冗余、不均衡、对环境敏感的人工制品,不加区分的更新会污染未来上下文。我们提出SkillsVote,一个从收集、推荐到演化的Agent技能生命周期治理框架。SkillsVote对百万级开源语料进行环境需求、质量和可验证性分析,然后为可验证技能合成任务。执行前,SkillsVote在结构化技能库上进行智能体库搜索,以暴露指导性技能上下文。执行后,它将轨迹分解为技能关联的子任务,将结果归因于技能使用、智能体探索、环境和结果信号,仅将成功的可复用发现纳入证据门控更新。在我们的评估中,离线演化使GPT-5.2在Terminal-Bench 2.0上提升高达7.9个百分点,而在线演化使SWE-Bench Pro提升高达2.6个百分点。总体而言,当系统控制暴露、归因和保存时,受治理的外部技能库可以在不更新模型的情况下提升冻结智能体的性能。


关联概念

  • Agent技能
  • 生命周期治理
  • 证据门控更新
  • 技能生态系统
  • 轨迹分解

可操作项

可尝试使用SkillsVote框架(代码开源于GitHub)对现有LLM智能体技能库进行结构化收集、推荐和演化治理,具体步骤包括:1) 对开源语料进行环境需求、质量和可验证性分析;2) 合成可验证技能任务;3) 执行前进行智能体库搜索;4) 执行后分解轨迹并归因结果;5) 仅将成功的可复用发现纳入证据门控更新。


原文: SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution
自动加工于 2026-05-20 11:29

#LLM#智能体#技能治理#框架

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA