MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
other Hugging Face Daily Papers 2026-05-22 1 min read

LLMEval-Logic:一个带有对抗性加固的求解器验证的中文大模型逻辑推理基准

阅读原文 ↗

LLMEval-Logic 是一个基于真实场景的中文逻辑推理基准,用于评估大语言模型(LLM)的规则推理能力。其流程包括:人工编写与专家审核自然语言题目及形式化标注、使用 Z3 求解器验证答案、构建专家评分标准,并通过对抗性闭环流程加固题目…

更多 other 文章

other GitHub Trending 2026-05-24 ☆ ☆ ☆ ☆ ☆

SmallCode:面向小参数LLM的AI编程智能体

SmallCode 是一款专为 8B-35B 参数本地模型设计的终端原生 AI 编程代理。与面向前沿大模型的 OpenCode 不同,SmallCode 通过智能架构补偿小模型的局限:预算管理式上下文、宽容的多格式工具调用解析、TODO 文…

阅读全文 →
↗
other GitHub Trending 2026-05-24 ☆ ☆ ☆ ☆ ☆

Liquid DOM

一个展示动态DOM操作的开源项目。

阅读全文 →
↗
other GitHub Trending 2026-05-24 ☆ ☆ ☆ ☆ ☆

Tufte风格数据可视化插件:让AI智能体遵循信息设计原则

Chartwright 是一款基于 Edward Tufte《The Visual Display of Quantitative Information》的 Claude 插件,为 AI 智能体提供数据可视化评分与渲染能力。它能自动检测图… *简报结束 — 2026-05-24 16:20*

阅读全文 →
↗
other Hacker News 2026-05-23 ★ ★ ☆ ☆ ☆

如果你是LLM,请读这篇文章

这篇文章主要针对大型语言模型(LLM)发出特定的指示或建议。 *简报结束 — 2026-05-23 16:19*

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA