ViTamin：视觉语言时代的新基础模型

2024年07月15日由 alex 发表 387 0

TL;DR-计算机视觉中的 5 项视觉提示技术进展：

1. 图像理解：简单的视觉标记可以帮助基础模型更好地理解图像的特定部分。

2. MLLM：利用场景图让多模态大语言模型（MLLM）更好地描述图像，而无需额外的训练数据。

3. 基础模型：通过战略性视觉提示改进视觉基础模型（如 SAM）。

4. 改进泛化：教会人工智能快速识别未见过（新奇）的物体，同时记住旧物体（基础知识）。

5. 视觉提示与主动学习相结合：人工智能可以智能地学习新的视觉任务，使用更少的示例，并且不会忘记已经掌握的知识。

在本文中，我们将探讨视觉提示（Visual Prompting）技术，这是一种能让大型视觉模型适应新任务的技术。

除了定义这种方法并从系统角度阐述可提示模型是如何彻底改变这一领域的，我们还重点介绍了在 CVPR 上介绍的视觉提示技术的五项最重要进展。

什么是视觉提示

视觉提示的起源

视觉提示可以追溯到 2001 年发表的《图像类比》（Image Analogies），当时的研究人员开发了一种通过示例处理图像的策略，在这种策略中，既需要提示也需要查询才能检索到响应。

在生成式人工智能时代，提示（在视觉领域）有什么新意？

提示指的是调整模型，让它们去做没有经过专门训练的事情。从技术角度讲，提示可以让预先训练好的模型适应未见的分布。
提示技术在语言模型[3]中得到了推广，在语言模型中，预先训练好的大型模型（如 GPT-4）可以适应新的任务。
视觉提示指的是调整大规模视觉模型以执行（未见的）视觉任务的过程。

理解视觉提示

要理解视觉领域的提示，不妨先确定提示与微调（一种标准适应方法）之间的区别。

图1

图 1 说明了视觉提示和微调在计算机视觉基础模型方面的主要区别。视觉提示采用视觉提示或示例来引导模型，而不修改其参数。这种方法具有灵活性和较低的计算要求。另一方面，微调涉及在特定数据集上重新训练模型，修改其参数，以获得更好的特定任务性能，但代价是更高的计算资源。

然而，这两种方法并不是二元选择。如图 2 所示，它们都代表了基础模型潜在适应策略的连续体。

图2

上图显示，当需要灵活性和速度时，视觉提示可能是利用大规模视觉模型进行某些应用（如视觉搜索和检索，或快速原型设计和实验）的最佳方法。

视觉提示：系统视角

从系统角度理解视觉提示技术，尤其是在多阶段视觉系统中理解这一技术，或许是了解视觉提示技术优势的关键所在。

可提示模型可与其他系统无缝集成，使其在推理过程中执行特定任务，成为大型人工智能系统的一部分。

图3

图 3 显示了一个采用可提示地基模型的系统，它是更大系统的一个组成部分：

输入图像：系统从输入图像开始，在本例中，输入图像显示的是一群在田野中奔跑的马。
物体检测：输入图像由物体检测器（如 YOLO-World [6]）处理。该步骤可识别和定位图像中的物体，并在检测到的物体周围生成边界框。输出结果显示了每匹马周围的边界框，以及天空中云朵的较小边界框。
分割：然后将检测到的方框作为可提示分割模型（如 Segment Anything [5]）的视觉提示。该模型会为每个检测到的物体生成精确的遮罩，从而对图像进行更详细的分割。

在 CVPR 2024 上大放异彩的视觉提示技术进展

大型多模态模型的直观视觉提示

图4

主要新颖性：引入了一种能够解码任意（自由形式）视觉提示的多模态模型，使用户能够通过使用 "红色边界框 "或 "尖箭头 "等自然提示标记图像与模型进行直观交互，而无需复杂的区域编码。

潜在应用：:

a) 医疗成像：允许医疗专业人员突出显示医疗图像（如 X 射线、核磁共振成像）中的特定区域，以便进行更准确的诊断和分析。
b) 电子商务产品搜索：使用户能够标记产品图片的特定部位（如突出显示鞋跟），以查找类似商品或详细的产品信息。

零样本视觉提示增强人工智能对图像的理解

图5

主要创新点：开发了 "合成思维链"（CCoT）方法，包括两步零镜头提示过程。首先，多模态大语言模型（MLLM）根据任务提示从图像中生成场景图。然后，利用该场景图为生成详细而准确的响应提供上下文，同时利用构成信息，而无需注释数据或微调。

潜在应用：:

a) 视觉问题解答：通过全面了解视觉内容及其构成，为有关图像的问题提供准确答案。
b) 监控：识别图像中的物体并理解它们之间的关系，这对监控应用非常有用。

成本效益高的基础模型分割

图6

主要创新点：开发了语义感知实例分割网络（SAPNet），它利用点提示将多重实例学习（MIL）与 SAM [5] 等视觉基础模型整合在一起。SAPNet 通过战略性地选择具有代表性的掩码提案，并利用点距离引导和盒式挖掘策略来解决分割难题，从而增强了特定类别分割功能。

潜在应用：

a) 自动驾驶：改进自动驾驶汽车系统中的物体检测和分类，从而提高决策水平和安全性。
b) 农业监测：对航空或卫星图像中的特定作物或植物进行精确分割，以便更好地进行农业管理和产量预测。

在基础模型中使用视觉提示以改进图像分割

图7

主要新颖之处：将学习到的视觉提示与转换解码器一起用于广义少镜头分割（GFSS）。具体来说，他们在新颖提示（从有限的示例中学习）和基础提示（从丰富的数据中学习）之间引入了一种单向因果注意机制。

潜在应用：

a) 自动驾驶汽车：用最少的示例快速适应识别和分割新物体或路况，同时保持对常见道路元素的性能。
b) 卫星图像分析：用少量实例识别和划分新型土地利用或环境变化，同时保持对已知地理特征的准确性。

视觉语言模型（VLM）中的主动学习和提示

图8

主要创新点：开发了一种名为 PCB 的新型主动学习框架，专门用于预训练的视觉语言模型 (VLM)。这种方法既能解决视觉语言模型适应新任务的难题，又能最大限度地减少对昂贵标签的需求。

潜在应用：

a) 医学成像：快速调整 VLM，以识别新的疾病模式或异常情况，同时尽量减少专家标注。
b) 电子商务：通过对 VLM 进行调整，使其适应新的产品线，从而提高产品分类和搜索能力，只需有限的人工输入。

结论

正如我们在本文中所讨论的，可视化提示使在输入空间中调整基础模型成为可能。这一点非常重要，因为这种输入可作为人类和模型的通用界面。

视觉领域的可提示模型很可能会重新定义传统计算机视觉管道的运作方式。这些模型中的许多可以被看作是取代传统管道中某些常见阶段（如标注）的构件。

文章来源：https://medium.com/@tenyks_blogger/cvpr-2024-foundation-models-visual-prompting-are-about-to-disrupt-computer-vision-026f2c1c3a2f

标签：

人工智能计算机视觉

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 GraphRAG ：索引如何提升RAG中知识图谱的性能

下一篇探索时间序列对于法学领域的分析

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来