OProver：面向智能体形式定理证明的统一框架

OProver 是一个面向 Lean 4 的智能体形式定理证明统一框架，通过迭代训练（持续预训练 + 迭代后训练）结合已验证证明和编译器反馈来改进证明生成。其核心组件 OProofs 包含 177 万条 Lean 语句、686 万个编译器验证的证明及序列化轨迹。在五个基准测试中，OProver-32B 在 MiniF2F (93.3%)、ProverBench (58.2%) 和 PutnamBench (11.3%) 上取得最佳 Pass@32 成绩，并在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二，优于所有先前开源全证明证明器。

核心要点

OProver 将智能体证明（agentic proving）集成到训练中，而不仅限于推理阶段，通过迭代修订失败证明尝试。
训练流程：持续预训练 → 迭代后训练，每轮运行智能体证明、索引新验证证明、使用修复轨迹作为 SFT 数据、用未解决难题进行强化学习。
OProofs 数据集：来自公共 Lean 资源、大规模证明合成和智能体证明轨迹，含 177 万条语句、686 万个编译器验证证明及序列化轨迹。
OProver-32B 在 MiniF2F 上 Pass@32 达 93.3%，ProverBench 58.2%，PutnamBench 11.3%，均为最佳。
在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二，整体表现优于所有先前开源全证明证明器。

正文

摘要

近期形式定理证明的进展受益于大规模证明生成和验证器感知训练，但智能体证明（agentic proving）很少被集成到证明器训练中，仅出现在推理阶段。我们提出 OProver，一个面向 Lean 4 的智能体形式定理证明统一框架，其中失败的证明尝试通过检索编译器验证的证明和 Lean 编译器反馈进行迭代修订。OProver 通过持续预训练后接迭代后训练进行训练：每轮迭代运行智能体证明，将新验证的证明索引到 OProofs 和检索记忆中，使用修复轨迹作为监督微调（SFT）数据，并使用未解决的难题进行强化学习（RL）。OProofs 基于公共 Lean 资源、大规模证明合成和智能体证明轨迹构建，包含 177 万条 Lean 语句、686 万个编译器验证的证明，以及序列化轨迹（含检索上下文、失败尝试、反馈和修复）。在五个基准测试中，OProver-32B 在 MiniF2F (93.3%)、ProverBench (58.2%) 和 PutnamBench (11.3%) 上取得最佳 Pass@32 成绩，在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二，其顶级排名数量超过任何先前开源全证明证明器。

延伸摘要

近期形式定理证明的进展受益于大规模证明生成和验证器感知训练，但智能体证明很少被集成到证明器训练中，仅出现在推理阶段。我们提出 OProver，一个面向 Lean 4 的智能体形式定理证明统一框架，其中失败的证明尝试通过检索编译器验证的证明和 Lean 编译器反馈进行迭代修订。OProver 通过持续预训练后接迭代后训练进行训练：每轮迭代运行智能体证明，将新验证的证明索引到 OProofs 和检索记忆中，使用修复轨迹作为 SFT 数据，并使用未解决的难题进行 RL。OProofs 基于公共 Lean 资源、大规模证明合成和智能体证明轨迹构建，包含 177 万条 Lean 语句、686 万个编译器验证的证明，以及序列化轨迹（含检索上下文、失败尝试、反馈和修复）。在五个基准测试中，OProver-32B 在 MiniF2F (93.3%)、ProverBench (58.2%) 和 PutnamBench (11.3%) 上取得最佳 Pass@32 成绩，在 MathOlympiad (22.8%) 和 ProofNet (33.2%) 上排名第二，其顶级排名数量超过任何先前开源全证明证明器。

关联概念

Lean 4
形式定理证明
智能体证明
编译器反馈
强化学习
监督微调
持续预训练
证明合成

可操作项

可动手实践：1. 访问 GitHub 仓库 https://github.com/multimodal-art-projection/OProver 获取代码和数据集。2. 尝试使用 OProver 框架在 Lean 4 中运行定理证明任务。3. 参考 OProofs 数据集构建自己的证明检索系统。4. 基于 OProver 的训练流程（持续预训练 + 迭代后训练）复现或改进证明器。

原文: OProver: A Unified Framework for Agentic Formal Theorem Proving
自动加工于 2026-05-20 11:28

核心要点

正文

摘要

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章