AnomalyGPT：一种基于大型视觉语言模型 (LVLM) 的新颖 IAD 方法

2023年09月04日由 daydream 发表 1252 0

在各种自然语言处理（NLP）任务中，如GPT-3.5和LLaMA等大型语言模型（LLMs）展示了出色的性能。最近，通过将视觉信息与文本特征进行对齐的先进技术（如MiniGPT-4、BLIP-2和PandaGPT）扩展了LLMs解释视觉信息的能力，从而在人工通用智能（AGI）领域引起了巨大变革。然而，尽管LVLMs已经在从互联网获取的大量数据上进行了预训练，但它们在工业异常检测（IAD）任务中的潜力仍受到限制。此外，它们对领域特定知识的掌握只是适度的，并且需要更敏感于对象内部的局部特征。IAD任务的目标是在工业产品的照片中找出和定位异常。

由于真实世界的例子是不常见且不可预测的，因此模型必须仅在正常样本上进行训练，以识别与正常样本不同的异常样本。目前大多数IAD系统仅为测试样本提供异常分数，并要求手动定义用于区分每个对象类别的正常和异常实例的标准，这使它们不适用于实际的生产场景。中国科学院、中国科学院大学、Objecteye公司和武汉AI研究机构的研究人员提出了一种基于LVLM的独特的IAD方法，如图1所示，因为现有的IAD方法和LVLM无法很好地处理IAD问题。AnomalyGPT可以识别异常及其位置，而无需手动调整阈值。

此外，他们的方法可以提供图像信息并促进交互式互动，允许用户根据其需求和响应提出后续查询。只需一些正常样本，AnomalyGPT还可以在上下文中进行学习，以便快速适应新的对象。他们使用合成的异常视觉-文本数据和结合IAD专业知识来优化LVLM。然而，直接使用IAD数据进行训练仍然需要改进。首先是数据稀缺性。他们在16万张带有多轮对话的照片上进行了预训练，包括LLaVA和PandaGPT等技术。然而，目前可用的IAD数据集的样本量较小，直接微调容易过拟合和灾难性遗忘。

为了解决这个问题，他们使用查询嵌入而不是参数微调来微调LVLM。在图像输入之后，会插入更多的查询嵌入，将额外的IAD信息添加到LVLM中。第二个困难涉及细粒度语义。他们建议使用基于视觉-文本特征匹配的解码器来获得像素级的异常定位结果。解码器的输出可供LVLM和原始测试图像使用，通过查询嵌入。这使LVLM可以同时使用原始图像和解码器的输出来识别异常，提高了其判断的准确性。他们在MVTec-AD和VisA数据库上进行了全面的实验。

他们在MVTec-AD数据集上进行了无监督训练，获得了93.3%的准确率，97.4%的图像级AUC和93.1%的像素级AUC。将一个shot转移到VisA数据集后，他们获得了77.4%的准确率，87.4%的图像级AUC和96.2%的像素级AUC。另一方面，将一个shot从VisA数据集无监督训练后转移到MVTec-AD数据集，获得了86.1%的准确率，94.1%的图像级AUC和95.3%的像素级AUC。

以下是他们的贡献总结：

他们提出了将LVLM用于处理IAD任务的创新方法。他们的方法可以进行多轮讨论，无需手动调整阈值即可检测和定位异常。他们的轻量级、基于视觉-文本特征匹配的解码器解决了LLM对细粒度语义理解能力较弱的问题。它缓解了LLM只能生成文本输出的限制。据他们所知，他们是第一个成功将LVLM应用于工业异常检测的研究。
为了保持LVLM的内在能力并实现多轮对话，他们将模型与LVLM预训练期间使用的数据同时训练，并使用查询嵌入进行微调。
他们的方法具有很强的可迁移性，并且可以在新的数据集上进行上下文上的少样本学习，并取得出色的结果。

文章来源：https://www.marktechpost.com/2023/09/02/meet-anomalygpt-a-novel-iad-approach-based-on-large-vision-language-models-lvlm-to-detect-industrial-anomalies/

标签：

AnomalyGPT LVLM IAD

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Stability AI推出其首个日语图像视觉模型Japanese InstructBLIP Alpha

下一篇 Google推出Vertex AI新功能，提升企业智能应用的能力

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来