Artifact-Bench是一个用于评估多模态大语言模型(MLLMs)在AI生成视频中检测和分析伪影能力的综合基准。该基准建立了一个三级层次化伪影分类体系,涵盖逼真、动画和CG风格视频,并定义了三个互补任务:真实与AI生成视频分类、成对真实性比较和细粒度伪影识别。对19个领先MLLMs的实验揭示了它们在伪影感知和推理方面的显著局限性,许多模型在挑战性设置下接近甚至低于随机水平。此外,MLLM判断与人类感知偏好之间存在显著错位,表明其作为AI生成视频真实性通用评估器的可靠性有限。
核心要点
- 提出了Artifact-Bench基准,用于系统评估MLLMs在AI生成视频伪影检测与分析方面的能力。
- 建立了一个三级层次化伪影分类体系,覆盖逼真、动画和CG风格视频。
- 定义了三个互补任务:真实vs.AI生成视频分类、成对真实性比较和细粒度伪影识别。
- 对19个领先MLLMs的实验显示,许多模型在挑战性设置下表现接近或低于随机水平。
- 发现MLLM判断与人类感知偏好之间存在显著错位,表明其作为通用评估器的可靠性有限。
正文
AI摘要
Artifact-Bench评估多模态大语言模型检测和分析AI生成视频中伪影的能力,揭示了其在伪影感知和推理方面的显著局限性。
原始摘要
最近的视频生成模型极大地提高了AI生成视频的真实性,但其输出仍然存在伪影,例如时间不一致性、结构扭曲和语义不连贯。虽然多模态大语言模型(MLLMs)表现出强大的视觉理解能力,但它们感知和推理此类伪影的能力仍不清楚。现有基准通常缺乏对伪影感知和细粒度诊断推理的系统评估,尤其是在超越逼真内容的多样化AI生成视频领域。为了解决这一差距,我们引入了Artifact-Bench,这是一个用于评估MLLMs在AI生成视频伪影检测和分析方面的综合基准。我们首先建立了一个三级层次化的真实性伪影分类体系,涵盖逼真、动画和CG风格视频。基于此分类体系,Artifact-Bench定义了三个互补任务:真实与AI生成视频分类、成对真实性比较和细粒度伪影识别。对19个领先MLLMs的实验揭示了它们在伪影感知和推理方面的显著局限性,许多模型在挑战性设置下接近甚至低于随机水平。我们进一步观察到MLLM判断与人类感知偏好之间存在显著错位,突显了它们作为AI生成视频真实性通用评估器的有限可靠性。
关联概念
- 多模态大语言模型 (MLLMs)
- AI生成视频伪影
- 视频真实性评估
- 细粒度伪影识别
- 层次化伪影分类体系
可操作项
可以尝试使用Artifact-Bench的代码库(https://github.com/FrankYang-17/Artifact-Bench)对现有的MLLMs进行伪影检测和评估实验,以验证模型在真实与AI生成视频分类、成对真实性比较和细粒度伪影识别任务上的表现。
原文: Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos
自动加工于 2026-05-20 11:26