大型语言模型(LLMs)已经成功地利用了人工智能(AI)子领域的能力,包括自然语言处理(NLP)、自然语言生成(NLG)和计算机视觉。有了LLMs,就有可能创建视觉-语言模型,这些模型可以复杂地推理图像、回答有关图像的查询,以及用自然语言描述图像。然而,LLMs是否能执行定位任务,如单词定位或参考定位,仍然不确定。
为了克服这一挑战,谷歌研究和加州大学圣地亚哥分校的研究团队介绍了一个名为PixelLLM的智能模型,该模型可以实现细粒度的定位和视觉-语言对齐。这种方法受到人们自然行为方式的启发,特别是婴儿如何用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找到LLMs如何从视觉输入中得出空间理解和推理。
PixelLLM将语言模型的每个输出单词密集对齐到一个像素位置。为此,一个小型多层感知机(MLP)被添加到单词特征上面,允许它回归到每个单词的像素位置。使用了低秩微调(LoRA),它允许更新或冻结语言模型的权重。模型还可以接收文本或位置提示,允许它提供针对该提示的输出。
模型的架构包括图像编码器、提示编码器和提示特征提取器。大型语言模型被输入以提示条件的图片特性和一个可选的文本提示,并以每个单词的定位和标题的形式输出。这种架构因为能够接受不同组合的语言或位置作为输入或输出,使其适应多种视觉-语言活动,极具多样性和适应性。
该团队已经使用诸如密集对象标注、位置条件标注和参考定位等著名视觉任务评估了该模型。通过显著的性能指标,包括在RefCOCO参考定位上的89.8 P@0.5,在Visual Genome条件标注上的19.9 CIDEr,在密集对象标注上的17.0 mAP,PixelLLM在各种挑战中都展示了最先进的结果。RefCOCO上的消融研究表明,密集的每像素定位公式非常重要,它比其他定位公式提高了3.7个百分点。因此,PixelLLM在实现精确的视觉-语言对齐和定位方面被证明是成功的。
该团队总结了他们的主要贡献如下