CiteVQA 是一个针对文档视觉语言模型的基准测试,它不仅评估答案的准确性,还要求模型正确引用支持证据。研究发现,当前模型普遍存在“归因幻觉”——答案正确但引用的证据区域错误。该基准包含 1897 个问题,覆盖 711 份 PDF 文档(7 个领域、2 种语言),并提出了“严格归因准确率(SAA)”作为核心评估指标。最强模型 Gemini-3.1-Pro-Preview 的 SAA 仅为 76.0,开源模型最高仅 22.5,揭示了仅评估答案的可靠性缺口。
核心要点
- CiteVQA 要求模型同时返回答案和元素级边界框引用,并联合评估两者。
- 基准包含 1897 个问题,覆盖 711 份 PDF(平均 40.6 页),涉及 7 个领域和 2 种语言。
- 真实引用通过自动化管道(掩码消融识别关键证据)生成,并经专家审核验证。
- 核心评估指标为严格归因准确率(SAA),仅当答案和引用区域都正确时才计分。
- 评估 20 个 MLLM 发现普遍存在归因幻觉:最强模型 Gemini-3.1-Pro-Preview 的 SAA 仅 76.0,最强开源模型仅 22.5。
正文
多模态大语言模型(MLLM)在文档理解方面取得了显著进展,但当前的 Doc-VQA 评估仅对最终答案评分,而不检查支持证据。这种仅关注答案的方法掩盖了一个关键失败模式:模型可能得出正确答案,但将其基于错误的段落——这在法律、金融和医学等高风险领域是重大风险,因为每个结论都必须可追溯到特定的来源区域。
为了解决这个问题,我们引入了 CiteVQA,这是一个要求模型在回答每个问题时返回元素级边界框引用的基准测试,并联合评估答案和引用。
数据集构成
CiteVQA 包含 1897 个问题,覆盖 711 份 PDF 文档,平均每份文档 40.6 页。这些文档跨越 7 个领域和 2 种语言。
真实引用生成
为确保真实引用的保真度和可扩展性,我们通过自动化管道生成真实引用——该管道使用掩码消融来识别关键证据——随后经过专家审核验证。
评估指标
核心评估指标是严格归因准确率(Strict Attributed Accuracy, SAA),仅当预测的答案和引用的区域都正确时才给予评分。
实验结果
对 20 个 MLLM 的审计揭示了普遍的归因幻觉:模型经常产生正确答案,但引用错误的区域。
- 最强系统 Gemini-3.1-Pro-Preview 的 SAA 仅为 76.0。
- 最强开源 MLLM 的 SAA 仅为 22.5。
结论
面向可信文档智能,CiteVQA 暴露了仅评估答案所忽视的可靠性缺口,并提供了弥补该缺口所需的工具。
代码仓库:https://github.com/opendatalab/CiteVQA
关联概念
- 多模态大语言模型 (MLLM)
- 文档视觉问答 (Doc-VQA)
- 归因幻觉 (Attribution Hallucination)
- 严格归因准确率 (SAA)
- 边界框引用 (Bounding-box Citations)
可操作项
可尝试使用 CiteVQA 基准测试评估自己的文档理解模型,重点关注 SAA 指标;或参考其自动化管道(掩码消融+专家审核)构建类似的数据集生成流程。
原文: CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence
自动加工于 2026-05-19 05:52