LLMEval-Logic是一个中文逻辑推理基准,用于评估大语言模型(LLM)在自然语言逻辑推理上的能力。它基于真实场景构建,通过专家审核、Z3求解器验证答案,并采用对抗性工作流加固题目。基准包含246题的Base子集(附1400个专家评分原子)和190题的Hard子集(含938个多步子问题)。评估14个前沿LLM发现,最佳模型在Hard子集上准确率仅37.5%,最高形式化得分仅60.16%。
核心要点
- LLMEval-Logic是首个中文自然语言逻辑推理基准,基于真实场景而非模板生成。
- 采用Z3求解器验证答案,并构建专家评分标准(rubric atoms)进行自然到形式化的评分。
- 通过对抗性工作流(adversarial workflow)加固题目,形成Hard子集,提升难度。
- 评估14个前沿LLM,最佳模型在Hard子集上准确率仅37.5%,最高形式化得分60.16%,显示当前模型在逻辑推理上仍有巨大差距。
- 基准代码和数据集已开源:https://github.com/llmeval/LLMEval-Logic
正文
评估大语言模型(LLM)在自然语言逻辑推理上的能力至关重要,因为规则驱动的任务要求结论严格遵循给定的前提。许多现有的逻辑推理基准通过从采样公式中模板化自然语言项来生成,仅提供粗略或未经审核的形式化注释,并且很快被前沿推理模型饱和。
我们提出LLMEval-Logic,一个基于真实情景场景构建的中文逻辑推理基准。其流程包括:前向作者和专家审核自然语言项及其参考形式化,使用Z3求解器验证注释答案,构建用于自然到形式化评分的专家评分标准(rubric atoms),并通过闭环对抗性工作流加固选定的项。
该基准以两个配对子集发布:一个246项的Base子集,附带1400个专家开发的评分原子;以及一个190项的Hard子集,包含938个多步子问题,覆盖封闭模型空间。
在LLMEval-Logic上评估14个前沿LLM,揭示了当前模型的巨大差距:最佳模型在Hard子集上的准确率仅37.5%,即使使用参考符号,评估模型中最高联合Z3+Rubric形式化得分也仅达到60.16%。
关联概念
- 大语言模型(LLM)
- 逻辑推理
- 自然语言推理
- Z3求解器
- 对抗性样本
- 基准测试
可操作项
访问项目GitHub仓库(https://github.com/llmeval/LLMEval-Logic),下载数据集和代码,在自己的LLM上运行评估,对比模型在Base和Hard子集上的表现,并尝试分析模型在逻辑推理上的薄弱环节。
原文: LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening
自动加工于 2026-05-21 20:52