Artifact-Bench：评估多模态大语言模型检测和评估AI生成视频伪影的能力

Artifact-Bench是一个用于评估多模态大语言模型（MLLMs）在AI生成视频中检测和分析伪影能力的综合基准。该基准建立了一个三级层次化伪影分类体系，涵盖逼真、动画和CG风格视频，并定义了三个互补任务：真实与AI生成视频分类、成对真实性比较和细粒度伪影识别。对19个领先MLLMs的实验揭示了它们在伪影感知和推理方面的显著局限性，许多模型在挑战性设置下接近甚至低于随机水平。此外，MLLM判断与人类感知偏好之间存在显著错位，表明其作为AI生成视频真实性通用评估器的可靠性有限。

核心要点

提出了Artifact-Bench基准，用于系统评估MLLMs在AI生成视频伪影检测与分析方面的能力。
建立了一个三级层次化伪影分类体系，覆盖逼真、动画和CG风格视频。
定义了三个互补任务：真实vs.AI生成视频分类、成对真实性比较和细粒度伪影识别。
对19个领先MLLMs的实验显示，许多模型在挑战性设置下表现接近或低于随机水平。
发现MLLM判断与人类感知偏好之间存在显著错位，表明其作为通用评估器的可靠性有限。

正文

AI摘要

Artifact-Bench评估多模态大语言模型检测和分析AI生成视频中伪影的能力，揭示了其在伪影感知和推理方面的显著局限性。

原始摘要

最近的视频生成模型极大地提高了AI生成视频的真实性，但其输出仍然存在伪影，例如时间不一致性、结构扭曲和语义不连贯。虽然多模态大语言模型（MLLMs）表现出强大的视觉理解能力，但它们感知和推理此类伪影的能力仍不清楚。现有基准通常缺乏对伪影感知和细粒度诊断推理的系统评估，尤其是在超越逼真内容的多样化AI生成视频领域。为了解决这一差距，我们引入了Artifact-Bench，这是一个用于评估MLLMs在AI生成视频伪影检测和分析方面的综合基准。我们首先建立了一个三级层次化的真实性伪影分类体系，涵盖逼真、动画和CG风格视频。基于此分类体系，Artifact-Bench定义了三个互补任务：真实与AI生成视频分类、成对真实性比较和细粒度伪影识别。对19个领先MLLMs的实验揭示了它们在伪影感知和推理方面的显著局限性，许多模型在挑战性设置下接近甚至低于随机水平。我们进一步观察到MLLM判断与人类感知偏好之间存在显著错位，突显了它们作为AI生成视频真实性通用评估器的有限可靠性。

关联概念

多模态大语言模型 (MLLMs)
AI生成视频伪影
视频真实性评估
细粒度伪影识别
层次化伪影分类体系

可操作项

可以尝试使用Artifact-Bench的代码库（https://github.com/FrankYang-17/Artifact-Bench）对现有的MLLMs进行伪影检测和评估实验，以验证模型在真实与AI生成视频分类、成对真实性比较和细粒度伪影识别任务上的表现。

原文: Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos
自动加工于 2026-05-20 11:26

核心要点

正文

AI摘要

原始摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章