MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

OProver:面向智能体形式定理证明的统一框架

阅读原文 ↗

OProver 是一个面向 Lean 4 的智能体形式定理证明统一框架,通过迭代训练(持续预训练 + 迭代后训练)结合已验证证明和编译器反馈来改进证明生成。其核心组件 OProofs 包含 177 万条 Lean 语句、686 万个编译器验证的证明及序列化轨迹。在五个基准测试中,OProver-32B 在 MiniF2F (93.3%)、ProverBench (58.2%) 和 PutnamBench (11.3%) 上取得最佳 Pass@32 成绩,并在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二,优于所有先前开源全证明证明器。


核心要点

  1. OProver 将智能体证明(agentic proving)集成到训练中,而不仅限于推理阶段,通过迭代修订失败证明尝试。
  2. 训练流程:持续预训练 → 迭代后训练,每轮运行智能体证明、索引新验证证明、使用修复轨迹作为 SFT 数据、用未解决难题进行强化学习。
  3. OProofs 数据集:来自公共 Lean 资源、大规模证明合成和智能体证明轨迹,含 177 万条语句、686 万个编译器验证证明及序列化轨迹。
  4. OProver-32B 在 MiniF2F 上 Pass@32 达 93.3%,ProverBench 58.2%,PutnamBench 11.3%,均为最佳。
  5. 在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二,整体表现优于所有先前开源全证明证明器。

正文

摘要

近期形式定理证明的进展受益于大规模证明生成和验证器感知训练,但智能体证明(agentic proving)很少被集成到证明器训练中,仅出现在推理阶段。我们提出 OProver,一个面向 Lean 4 的智能体形式定理证明统一框架,其中失败的证明尝试通过检索编译器验证的证明和 Lean 编译器反馈进行迭代修订。OProver 通过持续预训练后接迭代后训练进行训练:每轮迭代运行智能体证明,将新验证的证明索引到 OProofs 和检索记忆中,使用修复轨迹作为监督微调(SFT)数据,并使用未解决的难题进行强化学习(RL)。OProofs 基于公共 Lean 资源、大规模证明合成和智能体证明轨迹构建,包含 177 万条 Lean 语句、686 万个编译器验证的证明,以及序列化轨迹(含检索上下文、失败尝试、反馈和修复)。在五个基准测试中,OProver-32B 在 MiniF2F (93.3%)、ProverBench (58.2%) 和 PutnamBench (11.3%) 上取得最佳 Pass@32 成绩,在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二,其顶级排名数量超过任何先前开源全证明证明器。

延伸摘要

近期形式定理证明的进展受益于大规模证明生成和验证器感知训练,但智能体证明很少被集成到证明器训练中,仅出现在推理阶段。我们提出 OProver,一个面向 Lean 4 的智能体形式定理证明统一框架,其中失败的证明尝试通过检索编译器验证的证明和 Lean 编译器反馈进行迭代修订。OProver 通过持续预训练后接迭代后训练进行训练:每轮迭代运行智能体证明,将新验证的证明索引到 OProofs 和检索记忆中,使用修复轨迹作为 SFT 数据,并使用未解决的难题进行 RL。OProofs 基于公共 Lean 资源、大规模证明合成和智能体证明轨迹构建,包含 177 万条 Lean 语句、686 万个编译器验证的证明,以及序列化轨迹(含检索上下文、失败尝试、反馈和修复)。在五个基准测试中,OProver-32B 在 MiniF2F (93.3%)、ProverBench (58.2%) 和 PutnamBench (11.3%) 上取得最佳 Pass@32 成绩,在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二,其顶级排名数量超过任何先前开源全证明证明器。


关联概念

  • Lean 4
  • 形式定理证明
  • 智能体证明
  • 编译器反馈
  • 强化学习
  • 监督微调
  • 持续预训练
  • 证明合成

可操作项

可动手实践:1. 访问 GitHub 仓库 https://github.com/multimodal-art-projection/OProver 获取代码和数据集。2. 尝试使用 OProver 框架在 Lean 4 中运行定理证明任务。3. 参考 OProofs 数据集构建自己的证明检索系统。4. 基于 OProver 的训练流程(持续预训练 + 迭代后训练)复现或改进证明器。


原文: OProver: A Unified Framework for Agentic Formal Theorem Proving
自动加工于 2026-05-20 11:28

#定理证明#Lean 4#AI框架

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA