MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

IndusAgent:利用智能工具增强开放词汇工业异常检测

阅读原文 ↗

IndusAgent是一个工具增强的智能体框架,用于开放词汇工业异常检测。它通过构建结构化数据集Indus-CoT进行微调,并动态编排外部工具(如动态区域裁剪、高频特征增强和先验检索)来解决视觉歧义和细微异常。同时,引入门控强化学习目标联合优化异常分类、定位、类型推理和工具使用效率。在五个工业异常基准测试上取得了最先进的零样本性能。


核心要点

  1. 提出IndusAgent框架,通过工具增强的智能体方法提升开放词汇工业异常检测性能。
  2. 构建Indus-CoT结构化数据集,整合全局视觉、高分辨率局部块和专家正常先验,用于模型微调。
  3. 动态编排动态区域裁剪、高频特征增强和先验检索等外部工具,主动解决视觉歧义。
  4. 引入门控强化学习目标,联合优化异常分类、定位、类型推理和工具使用效率,仅在有益时调用工具。
  5. 在MVTec-AD、VisA、MPDD、DTD和SDD五个基准上取得最先进零样本性能,验证鲁棒性和泛化能力。

正文

多模态大语言模型(MLLMs)在连接视觉感知和文本推理方面表现出色,能够实现跨多种工业场景的零样本理解。然而,它们在开放词汇工业异常检测(IAD)中的性能常受限于领域不对齐的推理和幻觉性的结构推断。

为解决这些问题,我们提出IndusAgent,一个工具增强的智能体框架,用于开放词汇IAD。首先,我们构建Indus-CoT,一个结构化数据集,整合全局视觉观察、高分辨率局部块和专家正常先验,为模型在严格的工业检测轨迹上进行微调提供监督。在此基础上,IndusAgent动态编排一组外部工具,包括动态区域裁剪、高频特征增强和先验检索,使智能体能够主动解决视觉歧义并解开细微异常。

此外,我们引入一个门控强化学习目标,联合优化异常分类、定位准确性、异常类型推理和高效工具使用,确保仅在有益时调用工具。在五个工业异常基准测试(包括MVTec-AD、VisA、MPDD、DTD和SDD)上的广泛评估表明,IndusAgent在所有现有方法中实现了最先进的零样本性能,验证了其鲁棒性和泛化能力。


关联概念

  • 多模态大语言模型 (MLLMs)
  • 开放词汇工业异常检测 (IAD)
  • 工具增强智能体框架
  • 门控强化学习

可操作项

可尝试复现IndusAgent框架,使用Indus-CoT数据集对现有MLLM进行微调,并集成动态区域裁剪、高频特征增强和先验检索工具。利用门控强化学习目标优化模型,在MVTec-AD等基准上评估零样本性能。


原文: IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools
自动加工于 2026-05-21 08:08

#工业异常检测#智能体框架#开放词汇

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA