Google推出PixelLLM：创新视觉-语言定位与生成模型

2023年12月19日由 daydream 发表 517 0

微信截图_20231219152604 大型语言模型（LLMs）已经成功地利用了人工智能（AI）子领域的能力，包括自然语言处理（NLP）、自然语言生成（NLG）和计算机视觉。有了LLMs，就有可能创建视觉-语言模型，这些模型可以复杂地推理图像、回答有关图像的查询，以及用自然语言描述图像。然而，LLMs是否能执行定位任务，如单词定位或参考定位，仍然不确定。

为了克服这一挑战，谷歌研究和加州大学圣地亚哥分校的研究团队介绍了一个名为PixelLLM的智能模型，该模型可以实现细粒度的定位和视觉-语言对齐。这种方法受到人们自然行为方式的启发，特别是婴儿如何用手势、指点和命名来描述他们的视觉环境。团队表示，目标是找到LLMs如何从视觉输入中得出空间理解和推理。

PixelLLM将语言模型的每个输出单词密集对齐到一个像素位置。为此，一个小型多层感知机（MLP）被添加到单词特征上面，允许它回归到每个单词的像素位置。使用了低秩微调（LoRA），它允许更新或冻结语言模型的权重。模型还可以接收文本或位置提示，允许它提供针对该提示的输出。

模型的架构包括图像编码器、提示编码器和提示特征提取器。大型语言模型被输入以提示条件的图片特性和一个可选的文本提示，并以每个单词的定位和标题的形式输出。这种架构因为能够接受不同组合的语言或位置作为输入或输出，使其适应多种视觉-语言活动，极具多样性和适应性。

该团队已经使用诸如密集对象标注、位置条件标注和参考定位等著名视觉任务评估了该模型。通过显著的性能指标，包括在RefCOCO参考定位上的89.8 P@0.5，在Visual Genome条件标注上的19.9 CIDEr，在密集对象标注上的17.0 mAP，PixelLLM在各种挑战中都展示了最先进的结果。RefCOCO上的消融研究表明，密集的每像素定位公式非常重要，它比其他定位公式提高了3.7个百分点。因此，PixelLLM在实现精确的视觉-语言对齐和定位方面被证明是成功的。

该团队总结了他们的主要贡献如下

介绍了一种名为PixelLLM的新视觉-语言模型，它能够产生词汇定位并且可以生成图片标题。
该模型支持在图片输入之外的文本或可选位置提示。
使用了本地化叙事数据集来进行每个单词定位的训练。
该模型能够调整到各种视觉-语言任务，包括分割、位置条件标注、参考定位和密集标注。
该模型在位置条件标注、密集标注和参考定位及分割中显示了出色的结果。

文章来源：https://www.marktechpost.com/2023/12/18/google-ai-proposes-pixelllm-a-vision-language-model-capable-of-fine-grained-localization-and-vision-language-alignment/

标签：

谷歌 PixelLLM 视觉

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇机械工程的新突破：小型可操控两足机器人Mugatu

下一篇 Ludo.ai推出文本转视频工具助力游戏开发创新

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来