Solvita：通过智能体进化增强大型语言模型的竞赛编程能力

Solvita 是一个智能体进化框架，通过强化学习更新图结构知识网络，实现代码生成的持续学习，无需更新底层 LLM 权重。它由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成，形成策略选择、程序合成、认证监督和定向攻击的闭环系统。在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上，Solvita 达到了代码生成智能体的最新最优性能，优于现有多智能体流水线，并将单次基线准确率几乎翻倍。

核心要点

Solvita 通过强化学习更新图结构知识网络，实现持续学习，无需更新 LLM 权重。
系统由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成，形成闭环进化流程。
在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上达到最新最优性能。
优于现有多智能体流水线，准确率相比单次基线几乎翻倍。
关键创新：将通过/失败判决、测试认证质量和对抗性漏洞等结果信号转化为强化学习更新。

正文

原始摘要

大型语言模型（LLM）在应对高难度竞赛编程的严格推理需求时仍存在困难。虽然最近的多智能体框架试图弥合这一可靠性差距，但它们本质上是无状态的：依赖静态检索，并丢弃从先前任务中获得的宝贵问题解决和调试经验。为解决这一问题，我们提出了 Solvita，一个智能体进化框架，能够在无需更新底层 LLM 权重的情况下实现持续学习。Solvita 将问题解决重组为一个闭环系统，包括策略选择、程序合成、认证监督和定向攻击，由四个专用智能体执行：Planner、Solver、Oracle 和 Hacker。关键在于，每个智能体都配有一个可训练的图结构知识网络。随着系统运行，结果信号（如通过/失败判决、测试认证质量以及 Hacker 发现的对抗性漏洞）被转化为对这些网络权重的强化学习更新。这使得智能体能够根据过去的成功和失败动态路由未来的查询，从而随时间积累可迁移的推理经验。在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上的评估表明，Solvita 在代码生成智能体中建立了新的最新最优性能，优于现有的多智能体流水线，并将单次基线准确率几乎翻倍。

关联概念

多智能体框架
强化学习
图结构知识网络
程序合成
竞赛编程

可操作项

可尝试复现 Solvita 框架：1) 构建四个专用智能体（Planner、Solver、Oracle、Hacker）；2) 为每个智能体设计可训练的图结构知识网络；3) 将结果信号（如通过/失败）作为强化学习信号更新网络权重；4) 在 CodeContests 或 APPS 等基准上评估性能。

原文: Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution
自动加工于 2026-05-19 05:54

核心要点

正文

原始摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章