交互式评估需要设计科学

本文提出交互式评估应被视为一种原则性的评估范式，而非仅仅是新的智能体基准。随着大语言模型（LLM）越来越多地作为随时间演化的系统部署，传统基于静态响应的评估方法已不适用。文章将评估定义为从证据到判断的自主映射，并指出交互式评估改变了这一映射的两端：证据变为交互生成的轨迹，评估过程必须评估过程、可恢复性、协调性、鲁棒性和系统级性能。基于此，文章提出了一个双轴分类法，推导了设计原则和报告标准，并分析了长期存在的评估挑战如何在轨迹层面重现。

核心要点

交互式评估是原则性范式转变，需要新框架来通过动态轨迹而非静态响应评估系统行为。
传统评估假设（固定输入、孤立输出、单次响应判断）不适用于随时间演化的LLM系统。
评估被定义为从证据到判断的自主映射，交互式评估改变了证据（变为轨迹）和评估过程（需评估过程、可恢复性、协调性、鲁棒性、系统级性能）。
提出了双轴分类法，用于对交互式评估进行系统化分类。
推导了设计原则和报告标准，并分析了长期挑战在轨迹层面的重现。

正文

AI评估正在经历结构性变革。大语言模型（LLM）越来越多地被部署为通过工具、环境、用户和其他智能体随时间演化的系统，而许多评估实践仍继承自以响应为中心的基准（例如固定输入、孤立输出、可从单次响应做出的结果判断）。该领域已开始构建交互式基准，但由此产生的格局是碎片化的：基准在允许的交互工件、轨迹评分方式以及结果支持的主张上各不相同。

这篇立场论文主张，交互式评估应被视为一种原则性的评估范式，而不仅仅是新一类智能体基准。简单地采用先前的评估范式是不够的。我们将评估定义为从证据到判断的自主映射，并表明交互式评估改变了这一映射的两端：证据变为交互生成的轨迹，而评估过程必须评估过程、可恢复性、协调性、鲁棒性和系统级性能。

基于这一定义，我们提出了一个双轴分类法，推导了设计原则和报告标准，考察了代表性场景，并分析了长期存在的评估挑战如何在轨迹层面重现。

关联概念

交互式评估
评估范式
轨迹评估
双轴分类法
设计科学

可操作项

可动手实践的内容：1. 根据本文提出的双轴分类法，对现有的交互式基准进行分类和对比分析。2. 基于本文的设计原则，设计一个新的交互式评估任务或基准。3. 按照本文的报告标准，撰写一个交互式评估实验的报告。

原文: Interactive Evaluation Requires a Design Science
自动加工于 2026-05-21 08:08

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章