在各种自然语言处理(NLP)任务中,如GPT-3.5和LLaMA等大型语言模型(LLMs)展示了出色的性能。最近,通过将视觉信息与文本特征进行对齐的先进技术(如MiniGPT-4、BLIP-2和PandaGPT)扩展了LLMs解释视觉信息的能力,从而在人工通用智能(AGI)领域引起了巨大变革。然而,尽管LVLMs已经在从互联网获取的大量数据上进行了预训练,但它们在工业异常检测(IAD)任务中的潜力仍受到限制。此外,它们对领域特定知识的掌握只是适度的,并且需要更敏感于对象内部的局部特征。IAD任务的目标是在工业产品的照片中找出和定位异常。
由于真实世界的例子是不常见且不可预测的,因此模型必须仅在正常样本上进行训练,以识别与正常样本不同的异常样本。目前大多数IAD系统仅为测试样本提供异常分数,并要求手动定义用于区分每个对象类别的正常和异常实例的标准,这使它们不适用于实际的生产场景。中国科学院、中国科学院大学、Objecteye公司和武汉AI研究机构的研究人员提出了一种基于LVLM的独特的IAD方法,如图1所示,因为现有的IAD方法和LVLM无法很好地处理IAD问题。AnomalyGPT可以识别异常及其位置,而无需手动调整阈值。
此外,他们的方法可以提供图像信息并促进交互式互动,允许用户根据其需求和响应提出后续查询。只需一些正常样本,AnomalyGPT还可以在上下文中进行学习,以便快速适应新的对象。他们使用合成的异常视觉-文本数据和结合IAD专业知识来优化LVLM。然而,直接使用IAD数据进行训练仍然需要改进。首先是数据稀缺性。他们在16万张带有多轮对话的照片上进行了预训练,包括LLaVA和PandaGPT等技术。然而,目前可用的IAD数据集的样本量较小,直接微调容易过拟合和灾难性遗忘。
为了解决这个问题,他们使用查询嵌入而不是参数微调来微调LVLM。在图像输入之后,会插入更多的查询嵌入,将额外的IAD信息添加到LVLM中。第二个困难涉及细粒度语义。他们建议使用基于视觉-文本特征匹配的解码器来获得像素级的异常定位结果。解码器的输出可供LVLM和原始测试图像使用,通过查询嵌入。这使LVLM可以同时使用原始图像和解码器的输出来识别异常,提高了其判断的准确性。他们在MVTec-AD和VisA数据库上进行了全面的实验。
他们在MVTec-AD数据集上进行了无监督训练,获得了93.3%的准确率,97.4%的图像级AUC和93.1%的像素级AUC。将一个shot转移到VisA数据集后,他们获得了77.4%的准确率,87.4%的图像级AUC和96.2%的像素级AUC。另一方面,将一个shot从VisA数据集无监督训练后转移到MVTec-AD数据集,获得了86.1%的准确率,94.1%的图像级AUC和95.3%的像素级AUC。
以下是他们的贡献总结: