LLMEval-Logic：一个带有对抗性加固的求解器验证的中文大模型逻辑推理基准

LLMEval-Logic 是一个基于真实场景的中文逻辑推理基准，用于评估大语言模型（LLM）的规则推理能力。其流程包括：人工编写与专家审核自然语言题目及形式化标注、使用 Z3 求解器验证答案、构建专家评分标准，并通过对抗性闭环流程加固题目…