TL;DR-计算机视觉中的 5 项视觉提示技术进展:
1. 图像理解: 简单的视觉标记可以帮助基础模型更好地理解图像的特定部分。
2. MLLM: 利用场景图让多模态大语言模型(MLLM)更好地描述图像,而无需额外的训练数据。
3. 基础模型: 通过战略性视觉提示改进视觉基础模型(如 SAM)。
4. 改进泛化: 教会人工智能快速识别未见过(新奇)的物体,同时记住旧物体(基础知识)。
5. 视觉提示与主动学习相结合: 人工智能可以智能地学习新的视觉任务,使用更少的示例,并且不会忘记已经掌握的知识。
在本文中,我们将探讨视觉提示(Visual Prompting)技术,这是一种能让大型视觉模型适应新任务的技术。
除了定义这种方法并从系统角度阐述可提示模型是如何彻底改变这一领域的,我们还重点介绍了在 CVPR 上介绍的视觉提示技术的五项最重要进展。
什么是视觉提示
视觉提示的起源
视觉提示可以追溯到 2001 年发表的《图像类比》(Image Analogies),当时的研究人员开发了一种通过示例处理图像的策略,在这种策略中,既需要提示也需要查询才能检索到响应。
在生成式人工智能时代,提示(在视觉领域)有什么新意?
理解视觉提示
要理解视觉领域的提示,不妨先确定提示与微调(一种标准适应方法)之间的区别。
图1
图 1 说明了视觉提示和微调在计算机视觉基础模型方面的主要区别。视觉提示采用视觉提示或示例来引导模型,而不修改其参数。这种方法具有灵活性和较低的计算要求。另一方面,微调涉及在特定数据集上重新训练模型,修改其参数,以获得更好的特定任务性能,但代价是更高的计算资源。
然而,这两种方法并不是二元选择。如图 2 所示,它们都代表了基础模型潜在适应策略的连续体。
图2
上图显示,当需要灵活性和速度时,视觉提示可能是利用大规模视觉模型进行某些应用(如视觉搜索和检索,或快速原型设计和实验)的最佳方法。
视觉提示: 系统视角
从系统角度理解视觉提示技术,尤其是在多阶段视觉系统中理解这一技术,或许是了解视觉提示技术优势的关键所在。
可提示模型可与其他系统无缝集成,使其在推理过程中执行特定任务,成为大型人工智能系统的一部分。
图3
图 3 显示了一个采用可提示地基模型的系统,它是更大系统的一个组成部分:
在 CVPR 2024 上大放异彩的视觉提示技术进展
大型多模态模型的直观视觉提示
图4
主要新颖性:引入了一种能够解码任意(自由形式)视觉提示的多模态模型,使用户能够通过使用 "红色边界框 "或 "尖箭头 "等自然提示标记图像与模型进行直观交互,而无需复杂的区域编码。
潜在应用::
零样本视觉提示增强人工智能对图像的理解
图5
主要创新点:开发了 "合成思维链"(CCoT)方法,包括两步零镜头提示过程。首先,多模态大语言模型(MLLM)根据任务提示从图像中生成场景图。然后,利用该场景图为生成详细而准确的响应提供上下文,同时利用构成信息,而无需注释数据或微调。
潜在应用::
成本效益高的基础模型分割
图6
主要创新点:开发了语义感知实例分割网络(SAPNet),它利用点提示将多重实例学习(MIL)与 SAM [5] 等视觉基础模型整合在一起。SAPNet 通过战略性地选择具有代表性的掩码提案,并利用点距离引导和盒式挖掘策略来解决分割难题,从而增强了特定类别分割功能。
潜在应用:
在基础模型中使用视觉提示以改进图像分割
图7
主要新颖之处:将学习到的视觉提示与转换解码器一起用于广义少镜头分割(GFSS)。具体来说,他们在新颖提示(从有限的示例中学习)和基础提示(从丰富的数据中学习)之间引入了一种单向因果注意机制。
潜在应用:
视觉语言模型(VLM)中的主动学习和提示
图8
主要创新点:开发了一种名为 PCB 的新型主动学习框架,专门用于预训练的视觉语言模型 (VLM)。这种方法既能解决视觉语言模型适应新任务的难题,又能最大限度地减少对昂贵标签的需求。
潜在应用:
结论
正如我们在本文中所讨论的,可视化提示使在输入空间中调整基础模型成为可能。这一点非常重要,因为这种输入可作为人类和模型的通用界面。
视觉领域的可提示模型很可能会重新定义传统计算机视觉管道的运作方式。这些模型中的许多可以被看作是取代传统管道中某些常见阶段(如标注)的构件。