AnomalyGPT:一种基于大型视觉语言模型 (LVLM) 的新颖 IAD 方法

2023年09月04日 由 daydream 发表 880 0

在各种自然语言处理(NLP)任务中,如GPT-3.5和LLaMA等大型语言模型(LLMs)展示了出色的性能。最近,通过将视觉信息与文本特征进行对齐的先进技术(如MiniGPT-4、BLIP-2和PandaGPT)扩展了LLMs解释视觉信息的能力,从而在人工通用智能(AGI)领域引起了巨大变革。然而,尽管LVLMs已经在从互联网获取的大量数据上进行了预训练,但它们在工业异常检测(IAD)任务中的潜力仍受到限制。此外,它们对领域特定知识的掌握只是适度的,并且需要更敏感于对象内部的局部特征。IAD任务的目标是在工业产品的照片中找出和定位异常。


由于真实世界的例子是不常见且不可预测的,因此模型必须仅在正常样本上进行训练,以识别与正常样本不同的异常样本。目前大多数IAD系统仅为测试样本提供异常分数,并要求手动定义用于区分每个对象类别的正常和异常实例的标准,这使它们不适用于实际的生产场景。中国科学院、中国科学院大学、Objecteye公司和武汉AI研究机构的研究人员提出了一种基于LVLM的独特的IAD方法,如图1所示,因为现有的IAD方法和LVLM无法很好地处理IAD问题。AnomalyGPT可以识别异常及其位置,而无需手动调整阈值。


media


此外,他们的方法可以提供图像信息并促进交互式互动,允许用户根据其需求和响应提出后续查询。只需一些正常样本,AnomalyGPT还可以在上下文中进行学习,以便快速适应新的对象。他们使用合成的异常视觉-文本数据和结合IAD专业知识来优化LVLM。然而,直接使用IAD数据进行训练仍然需要改进。首先是数据稀缺性。他们在16万张带有多轮对话的照片上进行了预训练,包括LLaVA和PandaGPT等技术。然而,目前可用的IAD数据集的样本量较小,直接微调容易过拟合和灾难性遗忘。


为了解决这个问题,他们使用查询嵌入而不是参数微调来微调LVLM。在图像输入之后,会插入更多的查询嵌入,将额外的IAD信息添加到LVLM中。第二个困难涉及细粒度语义。他们建议使用基于视觉-文本特征匹配的解码器来获得像素级的异常定位结果。解码器的输出可供LVLM和原始测试图像使用,通过查询嵌入。这使LVLM可以同时使用原始图像和解码器的输出来识别异常,提高了其判断的准确性。他们在MVTec-AD和VisA数据库上进行了全面的实验。


他们在MVTec-AD数据集上进行了无监督训练,获得了93.3%的准确率,97.4%的图像级AUC和93.1%的像素级AUC。将一个shot转移到VisA数据集后,他们获得了77.4%的准确率,87.4%的图像级AUC和96.2%的像素级AUC。另一方面,将一个shot从VisA数据集无监督训练后转移到MVTec-AD数据集,获得了86.1%的准确率,94.1%的图像级AUC和95.3%的像素级AUC。


以下是他们的贡献总结:


  • 他们提出了将LVLM用于处理IAD任务的创新方法。他们的方法可以进行多轮讨论,无需手动调整阈值即可检测和定位异常。他们的轻量级、基于视觉-文本特征匹配的解码器解决了LLM对细粒度语义理解能力较弱的问题。它缓解了LLM只能生成文本输出的限制。据他们所知,他们是第一个成功将LVLM应用于工业异常检测的研究。
  • 为了保持LVLM的内在能力并实现多轮对话,他们将模型与LVLM预训练期间使用的数据同时训练,并使用查询嵌入进行微调。
  • 他们的方法具有很强的可迁移性,并且可以在新的数据集上进行上下文上的少样本学习,并取得出色的结果。
文章来源:https://www.marktechpost.com/2023/09/02/meet-anomalygpt-a-novel-iad-approach-based-on-large-vision-language-models-lvlm-to-detect-industrial-anomalies/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消