IndusAgent是一个工具增强的智能体框架,用于开放词汇工业异常检测。它通过构建结构化数据集Indus-CoT进行微调,并动态编排外部工具(如动态区域裁剪、高频特征增强和先验检索)来解决视觉歧义和细微异常。同时,引入门控强化学习目标联合优化异常分类、定位、类型推理和工具使用效率。在五个工业异常基准测试上取得了最先进的零样本性能。
核心要点
- 提出IndusAgent框架,通过工具增强的智能体方法提升开放词汇工业异常检测性能。
- 构建Indus-CoT结构化数据集,整合全局视觉、高分辨率局部块和专家正常先验,用于模型微调。
- 动态编排动态区域裁剪、高频特征增强和先验检索等外部工具,主动解决视觉歧义。
- 引入门控强化学习目标,联合优化异常分类、定位、类型推理和工具使用效率,仅在有益时调用工具。
- 在MVTec-AD、VisA、MPDD、DTD和SDD五个基准上取得最先进零样本性能,验证鲁棒性和泛化能力。
正文
多模态大语言模型(MLLMs)在连接视觉感知和文本推理方面表现出色,能够实现跨多种工业场景的零样本理解。然而,它们在开放词汇工业异常检测(IAD)中的性能常受限于领域不对齐的推理和幻觉性的结构推断。
为解决这些问题,我们提出IndusAgent,一个工具增强的智能体框架,用于开放词汇IAD。首先,我们构建Indus-CoT,一个结构化数据集,整合全局视觉观察、高分辨率局部块和专家正常先验,为模型在严格的工业检测轨迹上进行微调提供监督。在此基础上,IndusAgent动态编排一组外部工具,包括动态区域裁剪、高频特征增强和先验检索,使智能体能够主动解决视觉歧义并解开细微异常。
此外,我们引入一个门控强化学习目标,联合优化异常分类、定位准确性、异常类型推理和高效工具使用,确保仅在有益时调用工具。在五个工业异常基准测试(包括MVTec-AD、VisA、MPDD、DTD和SDD)上的广泛评估表明,IndusAgent在所有现有方法中实现了最先进的零样本性能,验证了其鲁棒性和泛化能力。
关联概念
- 多模态大语言模型 (MLLMs)
- 开放词汇工业异常检测 (IAD)
- 工具增强智能体框架
- 门控强化学习
可操作项
可尝试复现IndusAgent框架,使用Indus-CoT数据集对现有MLLM进行微调,并集成动态区域裁剪、高频特征增强和先验检索工具。利用门控强化学习目标优化模型,在MVTec-AD等基准上评估零样本性能。
原文: IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools
自动加工于 2026-05-21 08:08