MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

交互式评估需要设计科学

阅读原文 ↗

本文提出交互式评估应被视为一种原则性的评估范式,而非仅仅是新的智能体基准。随着大语言模型(LLM)越来越多地作为随时间演化的系统部署,传统基于静态响应的评估方法已不适用。文章将评估定义为从证据到判断的自主映射,并指出交互式评估改变了这一映射的两端:证据变为交互生成的轨迹,评估过程必须评估过程、可恢复性、协调性、鲁棒性和系统级性能。基于此,文章提出了一个双轴分类法,推导了设计原则和报告标准,并分析了长期存在的评估挑战如何在轨迹层面重现。


核心要点

  1. 交互式评估是原则性范式转变,需要新框架来通过动态轨迹而非静态响应评估系统行为。
  2. 传统评估假设(固定输入、孤立输出、单次响应判断)不适用于随时间演化的LLM系统。
  3. 评估被定义为从证据到判断的自主映射,交互式评估改变了证据(变为轨迹)和评估过程(需评估过程、可恢复性、协调性、鲁棒性、系统级性能)。
  4. 提出了双轴分类法,用于对交互式评估进行系统化分类。
  5. 推导了设计原则和报告标准,并分析了长期挑战在轨迹层面的重现。

正文

AI评估正在经历结构性变革。大语言模型(LLM)越来越多地被部署为通过工具、环境、用户和其他智能体随时间演化的系统,而许多评估实践仍继承自以响应为中心的基准(例如固定输入、孤立输出、可从单次响应做出的结果判断)。该领域已开始构建交互式基准,但由此产生的格局是碎片化的:基准在允许的交互工件、轨迹评分方式以及结果支持的主张上各不相同。

这篇立场论文主张,交互式评估应被视为一种原则性的评估范式,而不仅仅是新一类智能体基准。简单地采用先前的评估范式是不够的。我们将评估定义为从证据到判断的自主映射,并表明交互式评估改变了这一映射的两端:证据变为交互生成的轨迹,而评估过程必须评估过程、可恢复性、协调性、鲁棒性和系统级性能。

基于这一定义,我们提出了一个双轴分类法,推导了设计原则和报告标准,考察了代表性场景,并分析了长期存在的评估挑战如何在轨迹层面重现。


关联概念

  • 交互式评估
  • 评估范式
  • 轨迹评估
  • 双轴分类法
  • 设计科学

可操作项

可动手实践的内容:1. 根据本文提出的双轴分类法,对现有的交互式基准进行分类和对比分析。2. 基于本文的设计原则,设计一个新的交互式评估任务或基准。3. 按照本文的报告标准,撰写一个交互式评估实验的报告。


原文: Interactive Evaluation Requires a Design Science
自动加工于 2026-05-21 08:08

#交互式评估#大语言模型#评估范式

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA