Google推出PixelLLM:创新视觉-语言定位与生成模型

2023年12月19日 由 daydream 发表 368 0

微信截图_20231219152604大型语言模型(LLMs)已经成功地利用了人工智能(AI)子领域的能力,包括自然语言处理(NLP)、自然语言生成(NLG)和计算机视觉。有了LLMs,就有可能创建视觉-语言模型,这些模型可以复杂地推理图像、回答有关图像的查询,以及用自然语言描述图像。然而,LLMs是否能执行定位任务,如单词定位或参考定位,仍然不确定。




为了克服这一挑战,谷歌研究和加州大学圣地亚哥分校的研究团队介绍了一个名为PixelLLM的智能模型,该模型可以实现细粒度的定位和视觉-语言对齐。这种方法受到人们自然行为方式的启发,特别是婴儿如何用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找到LLMs如何从视觉输入中得出空间理解和推理。


PixelLLM将语言模型的每个输出单词密集对齐到一个像素位置。为此,一个小型多层感知机(MLP)被添加到单词特征上面,允许它回归到每个单词的像素位置。使用了低秩微调(LoRA),它允许更新或冻结语言模型的权重。模型还可以接收文本或位置提示,允许它提供针对该提示的输出。


模型的架构包括图像编码器、提示编码器和提示特征提取器。大型语言模型被输入以提示条件的图片特性和一个可选的文本提示,并以每个单词的定位和标题的形式输出。这种架构因为能够接受不同组合的语言或位置作为输入或输出,使其适应多种视觉-语言活动,极具多样性和适应性。


该团队已经使用诸如密集对象标注、位置条件标注和参考定位等著名视觉任务评估了该模型。通过显著的性能指标,包括在RefCOCO参考定位上的89.8 P@0.5,在Visual Genome条件标注上的19.9 CIDEr,在密集对象标注上的17.0 mAP,PixelLLM在各种挑战中都展示了最先进的结果。RefCOCO上的消融研究表明,密集的每像素定位公式非常重要,它比其他定位公式提高了3.7个百分点。因此,PixelLLM在实现精确的视觉-语言对齐和定位方面被证明是成功的。


该团队总结了他们的主要贡献如下


  • 介绍了一种名为PixelLLM的新视觉-语言模型,它能够产生词汇定位并且可以生成图片标题。
  • 该模型支持在图片输入之外的文本或可选位置提示。
  • 使用了本地化叙事数据集来进行每个单词定位的训练。
  • 该模型能够调整到各种视觉-语言任务,包括分割、位置条件标注、参考定位和密集标注。
  • 该模型在位置条件标注、密集标注和参考定位及分割中显示了出色的结果。
文章来源:https://www.marktechpost.com/2023/12/18/google-ai-proposes-pixelllm-a-vision-language-model-capable-of-fine-grained-localization-and-vision-language-alignment/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消