IndusAgent：利用智能工具增强开放词汇工业异常检测

IndusAgent是一个工具增强的智能体框架，用于开放词汇工业异常检测。它通过构建结构化数据集Indus-CoT进行微调，并动态编排外部工具（如动态区域裁剪、高频特征增强和先验检索）来解决视觉歧义和细微异常。同时，引入门控强化学习目标联合优化异常分类、定位、类型推理和工具使用效率。在五个工业异常基准测试上取得了最先进的零样本性能。

核心要点

提出IndusAgent框架，通过工具增强的智能体方法提升开放词汇工业异常检测性能。
构建Indus-CoT结构化数据集，整合全局视觉、高分辨率局部块和专家正常先验，用于模型微调。
动态编排动态区域裁剪、高频特征增强和先验检索等外部工具，主动解决视觉歧义。
引入门控强化学习目标，联合优化异常分类、定位、类型推理和工具使用效率，仅在有益时调用工具。
在MVTec-AD、VisA、MPDD、DTD和SDD五个基准上取得最先进零样本性能，验证鲁棒性和泛化能力。

正文

多模态大语言模型（MLLMs）在连接视觉感知和文本推理方面表现出色，能够实现跨多种工业场景的零样本理解。然而，它们在开放词汇工业异常检测（IAD）中的性能常受限于领域不对齐的推理和幻觉性的结构推断。

为解决这些问题，我们提出IndusAgent，一个工具增强的智能体框架，用于开放词汇IAD。首先，我们构建Indus-CoT，一个结构化数据集，整合全局视觉观察、高分辨率局部块和专家正常先验，为模型在严格的工业检测轨迹上进行微调提供监督。在此基础上，IndusAgent动态编排一组外部工具，包括动态区域裁剪、高频特征增强和先验检索，使智能体能够主动解决视觉歧义并解开细微异常。

此外，我们引入一个门控强化学习目标，联合优化异常分类、定位准确性、异常类型推理和高效工具使用，确保仅在有益时调用工具。在五个工业异常基准测试（包括MVTec-AD、VisA、MPDD、DTD和SDD）上的广泛评估表明，IndusAgent在所有现有方法中实现了最先进的零样本性能，验证了其鲁棒性和泛化能力。

关联概念

多模态大语言模型 (MLLMs)
开放词汇工业异常检测 (IAD)
工具增强智能体框架
门控强化学习

可操作项

可尝试复现IndusAgent框架，使用Indus-CoT数据集对现有MLLM进行微调，并集成动态区域裁剪、高频特征增强和先验检索工具。利用门控强化学习目标优化模型，在MVTec-AD等基准上评估零样本性能。

原文: IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools
自动加工于 2026-05-21 08:08

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章