视觉语言模型(VLM)是一种先进的人工智能系统,它结合了自然语言理解和图像识别的能力。像OpenAI的CLIP和谷歌的BigGAN一样,VLM可以理解文本描述和解释图像,使其能够在计算机视觉、内容生成和人机交互等领域应用。它们在理解和生成与视觉内容相关的文本方面展示了令人印象深刻的能力,使它们成为人工智能领域的关键技术。
来自谷歌研究、谷歌DeepMind和谷歌云的研究人员对比了使用分类和对比目标预训练的视觉变换器(ViT)模型,发现对比预训练的模型,特别是基于SigLIP的PaLI,在多模态任务中表现更好,尤其是在定位和文本理解方面。研究人员将SigLIP图像编码器扩展到20亿参数,实现了新的多语言跨模态检索的最佳水平。他们的研究主张在网络规模的图像文本数据上预训练视觉编码器,而不是分类式数据。他们的方法揭示了扩大分类预训练图像编码器的好处,正如PaLI-X在大型视觉语言模型中所展示的那样。
他们的研究深入探讨了VLM的扩展问题,同时强调了小规模模型在实用性和高效研究方面的重要性。PaLI-3,一个具有竞争力结果的50亿参数VLM。PaLI-3的训练过程包括在网络规模数据上对比预训练图像编码器、改进数据集混合和更高分辨率训练。还介绍了一个20亿参数的多语言对比视觉模型。消融实验证实了对比预训练模型的优越性,特别是在定位任务方面。PaLI-3的ViT-G图像编码器在多个分类和跨模态检索任务中表现出色。
总之,他们的研究强调了对比预训练,尤其是SigLIP方法,对于提高和提升VLMs的好处。较小的50亿参数基于SigLIP的PaLI-3模型在定位和文本理解方面表现出色,在多种多模态基准测试中超越了更大的对手。PaLI-3中图像编码器的对比预训练也实现了新的多语言跨模态检索最佳水平。他们的研究强调了需要全面地研究VLM训练中除了图像编码器预训练之外的各个方面,以进一步提高模型性能。