MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

Solvita:通过智能体进化增强大型语言模型的竞赛编程能力

阅读原文 ↗

Solvita 是一个智能体进化框架,通过强化学习更新图结构知识网络,实现代码生成的持续学习,无需更新底层 LLM 权重。它由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成,形成策略选择、程序合成、认证监督和定向攻击的闭环系统。在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上,Solvita 达到了代码生成智能体的最新最优性能,优于现有多智能体流水线,并将单次基线准确率几乎翻倍。


核心要点

  1. Solvita 通过强化学习更新图结构知识网络,实现持续学习,无需更新 LLM 权重。
  2. 系统由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成,形成闭环进化流程。
  3. 在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上达到最新最优性能。
  4. 优于现有多智能体流水线,准确率相比单次基线几乎翻倍。
  5. 关键创新:将通过/失败判决、测试认证质量和对抗性漏洞等结果信号转化为强化学习更新。

正文

原始摘要

大型语言模型(LLM)在应对高难度竞赛编程的严格推理需求时仍存在困难。虽然最近的多智能体框架试图弥合这一可靠性差距,但它们本质上是无状态的:依赖静态检索,并丢弃从先前任务中获得的宝贵问题解决和调试经验。为解决这一问题,我们提出了 Solvita,一个智能体进化框架,能够在无需更新底层 LLM 权重的情况下实现持续学习。Solvita 将问题解决重组为一个闭环系统,包括策略选择、程序合成、认证监督和定向攻击,由四个专用智能体执行:Planner、Solver、Oracle 和 Hacker。关键在于,每个智能体都配有一个可训练的图结构知识网络。随着系统运行,结果信号(如通过/失败判决、测试认证质量以及 Hacker 发现的对抗性漏洞)被转化为对这些网络权重的强化学习更新。这使得智能体能够根据过去的成功和失败动态路由未来的查询,从而随时间积累可迁移的推理经验。在 CodeContests、APPS、AetherCode 和实时 Codeforces 轮次上的评估表明,Solvita 在代码生成智能体中建立了新的最新最优性能,优于现有的多智能体流水线,并将单次基线准确率几乎翻倍。


关联概念

  • 多智能体框架
  • 强化学习
  • 图结构知识网络
  • 程序合成
  • 竞赛编程

可操作项

可尝试复现 Solvita 框架:1) 构建四个专用智能体(Planner、Solver、Oracle、Hacker);2) 为每个智能体设计可训练的图结构知识网络;3) 将结果信号(如通过/失败)作为强化学习信号更新网络权重;4) 在 CodeContests 或 APPS 等基准上评估性能。


原文: Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution
自动加工于 2026-05-19 05:54

#智能体#代码生成#强化学习#LLM

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA