Solvita 是一个智能体进化框架,通过强化学习更新图结构知识网络,实现代码生成的持续学习,无需更新底层 LLM 权重。它由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成,形成策略选择、程序合成、认证监督和定向攻击的闭环系统。在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上,Solvita 达到了代码生成智能体的最新最优性能,优于现有多智能体流水线,并将单次基线准确率几乎翻倍。
核心要点
- Solvita 通过强化学习更新图结构知识网络,实现持续学习,无需更新 LLM 权重。
- 系统由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成,形成闭环进化流程。
- 在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上达到最新最优性能。
- 优于现有多智能体流水线,准确率相比单次基线几乎翻倍。
- 关键创新:将通过/失败判决、测试认证质量和对抗性漏洞等结果信号转化为强化学习更新。
正文
原始摘要
大型语言模型(LLM)在应对高难度竞赛编程的严格推理需求时仍存在困难。虽然最近的多智能体框架试图弥合这一可靠性差距,但它们本质上是无状态的:依赖静态检索,并丢弃从先前任务中获得的宝贵问题解决和调试经验。为解决这一问题,我们提出了 Solvita,一个智能体进化框架,能够在无需更新底层 LLM 权重的情况下实现持续学习。Solvita 将问题解决重组为一个闭环系统,包括策略选择、程序合成、认证监督和定向攻击,由四个专用智能体执行:Planner、Solver、Oracle 和 Hacker。关键在于,每个智能体都配有一个可训练的图结构知识网络。随着系统运行,结果信号(如通过/失败判决、测试认证质量以及 Hacker 发现的对抗性漏洞)被转化为对这些网络权重的强化学习更新。这使得智能体能够根据过去的成功和失败动态路由未来的查询,从而随时间积累可迁移的推理经验。在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上的评估表明,Solvita 在代码生成智能体中建立了新的最新最优性能,优于现有的多智能体流水线,并将单次基线准确率几乎翻倍。
关联概念
- 多智能体框架
- 强化学习
- 图结构知识网络
- 程序合成
- 竞赛编程
可操作项
可尝试复现 Solvita 框架:1) 构建四个专用智能体(Planner、Solver、Oracle、Hacker);2) 为每个智能体设计可训练的图结构知识网络;3) 将结果信号(如通过/失败)作为强化学习信号更新网络权重;4) 在 CodeContests 或 APPS 等基准上评估性能。
原文: Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution
自动加工于 2026-05-19 05:54