MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

CiteVQA:为可信文档智能建立证据归因基准

阅读原文 ↗

CiteVQA 是一个针对文档视觉语言模型的基准测试,它不仅评估答案的准确性,还要求模型正确引用支持证据。研究发现,当前模型普遍存在“归因幻觉”——答案正确但引用的证据区域错误。该基准包含 1897 个问题,覆盖 711 份 PDF 文档(7 个领域、2 种语言),并提出了“严格归因准确率(SAA)”作为核心评估指标。最强模型 Gemini-3.1-Pro-Preview 的 SAA 仅为 76.0,开源模型最高仅 22.5,揭示了仅评估答案的可靠性缺口。


核心要点

  1. CiteVQA 要求模型同时返回答案和元素级边界框引用,并联合评估两者。
  2. 基准包含 1897 个问题,覆盖 711 份 PDF(平均 40.6 页),涉及 7 个领域和 2 种语言。
  3. 真实引用通过自动化管道(掩码消融识别关键证据)生成,并经专家审核验证。
  4. 核心评估指标为严格归因准确率(SAA),仅当答案和引用区域都正确时才计分。
  5. 评估 20 个 MLLM 发现普遍存在归因幻觉:最强模型 Gemini-3.1-Pro-Preview 的 SAA 仅 76.0,最强开源模型仅 22.5。

正文

多模态大语言模型(MLLM)在文档理解方面取得了显著进展,但当前的 Doc-VQA 评估仅对最终答案评分,而不检查支持证据。这种仅关注答案的方法掩盖了一个关键失败模式:模型可能得出正确答案,但将其基于错误的段落——这在法律、金融和医学等高风险领域是重大风险,因为每个结论都必须可追溯到特定的来源区域。

为了解决这个问题,我们引入了 CiteVQA,这是一个要求模型在回答每个问题时返回元素级边界框引用的基准测试,并联合评估答案和引用。

数据集构成

CiteVQA 包含 1897 个问题,覆盖 711 份 PDF 文档,平均每份文档 40.6 页。这些文档跨越 7 个领域和 2 种语言。

真实引用生成

为确保真实引用的保真度和可扩展性,我们通过自动化管道生成真实引用——该管道使用掩码消融来识别关键证据——随后经过专家审核验证。

评估指标

核心评估指标是严格归因准确率(Strict Attributed Accuracy, SAA),仅当预测的答案和引用的区域都正确时才给予评分。

实验结果

对 20 个 MLLM 的审计揭示了普遍的归因幻觉:模型经常产生正确答案,但引用错误的区域。

  • 最强系统 Gemini-3.1-Pro-Preview 的 SAA 仅为 76.0。
  • 最强开源 MLLM 的 SAA 仅为 22.5。

结论

面向可信文档智能,CiteVQA 暴露了仅评估答案所忽视的可靠性缺口,并提供了弥补该缺口所需的工具。

代码仓库:https://github.com/opendatalab/CiteVQA


关联概念

  • 多模态大语言模型 (MLLM)
  • 文档视觉问答 (Doc-VQA)
  • 归因幻觉 (Attribution Hallucination)
  • 严格归因准确率 (SAA)
  • 边界框引用 (Bounding-box Citations)

可操作项

可尝试使用 CiteVQA 基准测试评估自己的文档理解模型,重点关注 SAA 指标;或参考其自动化管道(掩码消融+专家审核)构建类似的数据集生成流程。


原文: CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence
自动加工于 2026-05-19 05:52

#文档视觉语言模型#归因幻觉#基准测试

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

Flash-GRPO:通过单步策略优化实现视频扩散的高效对齐

Flash-GRPO 是一种单步训练框架,通过等时分组和时间梯度修正,在低计算预算下实现视频扩散模型的高效对齐,显著提升训练效率。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

赫尔德策略优化

赫尔德策略优化(HölderPO)提出一种通用框架,通过Hölder均值统一token级概率聚合,解决了GRPO中固定聚合机制导致的训练崩溃与性能权衡问题,在多个数学基准上平均准确率达54.9%。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

InsightTok:在自回归图像生成的离散分词中提升文本与面部保真度

InsightTok 是一种改进的离散视觉标记化框架,通过引入内容感知的感知损失,显著提升了文本和面部的重建质量,并有效迁移至自回归图像生成任务。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

大规模多智能体路径规划中的局部通信学习

本文提出LC-MAPF预训练模型,通过可学习的局部通信模块实现相邻智能体多轮特征共享,提升多智能体路径规划协调能力。实验在多种未见场景中优于现有强化学习和模仿学习方法,且保持可扩展性。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA