MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

LLMEval-Logic:一个带有对抗性加固的求解器验证的中文大语言模型逻辑推理基准

阅读原文 ↗

LLMEval-Logic是一个中文逻辑推理基准,用于评估大语言模型(LLM)在自然语言逻辑推理上的能力。它基于真实场景构建,通过专家审核、Z3求解器验证答案,并采用对抗性工作流加固题目。基准包含246题的Base子集(附1400个专家评分原子)和190题的Hard子集(含938个多步子问题)。评估14个前沿LLM发现,最佳模型在Hard子集上准确率仅37.5%,最高形式化得分仅60.16%。


核心要点

  1. LLMEval-Logic是首个中文自然语言逻辑推理基准,基于真实场景而非模板生成。
  2. 采用Z3求解器验证答案,并构建专家评分标准(rubric atoms)进行自然到形式化的评分。
  3. 通过对抗性工作流(adversarial workflow)加固题目,形成Hard子集,提升难度。
  4. 评估14个前沿LLM,最佳模型在Hard子集上准确率仅37.5%,最高形式化得分60.16%,显示当前模型在逻辑推理上仍有巨大差距。
  5. 基准代码和数据集已开源:https://github.com/llmeval/LLMEval-Logic

正文

评估大语言模型(LLM)在自然语言逻辑推理上的能力至关重要,因为规则驱动的任务要求结论严格遵循给定的前提。许多现有的逻辑推理基准通过从采样公式中模板化自然语言项来生成,仅提供粗略或未经审核的形式化注释,并且很快被前沿推理模型饱和。

我们提出LLMEval-Logic,一个基于真实情景场景构建的中文逻辑推理基准。其流程包括:前向作者和专家审核自然语言项及其参考形式化,使用Z3求解器验证注释答案,构建用于自然到形式化评分的专家评分标准(rubric atoms),并通过闭环对抗性工作流加固选定的项。

该基准以两个配对子集发布:一个246项的Base子集,附带1400个专家开发的评分原子;以及一个190项的Hard子集,包含938个多步子问题,覆盖封闭模型空间。

在LLMEval-Logic上评估14个前沿LLM,揭示了当前模型的巨大差距:最佳模型在Hard子集上的准确率仅37.5%,即使使用参考符号,评估模型中最高联合Z3+Rubric形式化得分也仅达到60.16%。


关联概念

  • 大语言模型(LLM)
  • 逻辑推理
  • 自然语言推理
  • Z3求解器
  • 对抗性样本
  • 基准测试

可操作项

访问项目GitHub仓库(https://github.com/llmeval/LLMEval-Logic),下载数据集和代码,在自己的LLM上运行评估,对比模型在Base和Hard子集上的表现,并尝试分析模型在逻辑推理上的薄弱环节。


原文: LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening
自动加工于 2026-05-21 20:52

#LLM#逻辑推理#中文基准#对抗性加固

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA