英文

BLIP-2,OPT-6.7b,仅预训练

BLIP-2模型是利用了 OPT-6.7b (一个拥有67亿参数的大型语言模型)而创建的。它是由李等人在 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 论文中介绍并在 this repository 首次发布的。

免责声明:发布BLIP-2的团队没有为该模型撰写模型卡片,因此此模型卡片由Hugging Face团队编写。

模型描述

BLIP-2由3个模型组成:类似CLIP的图像编码器、查询Transformer(Q-Former)和大型语言模型。

作者通过预训练检查点初始化图像编码器和大型语言模型的权重,并在训练Querying Transformer时保持冻结。Querying Transformer 是一种类似BERT的Transformer编码器,将一组“查询标记”映射到查询嵌入向量,它们连接了图像编码器和大型语言模型的嵌入空间之间的差距。

模型的目标只是根据查询嵌入向量和先前文本来预测下一个文本标记。

这使得该模型可用于以下任务:

  • 图像描述
  • 视觉问答(VQA)
  • 类似对话的聊天,通过将图像和先前的对话作为提示馈送给模型

直接使用和下游使用

您可以使用原始模型根据图像和可选文本进行条件文本生成。请参阅 model hub 以查找您感兴趣的任务上的精细调整版本。

偏见、风险、限制和伦理考虑

BLIP2-OPT使用现成的OPT作为语言模型。它具有与Meta的模型卡片中提到的相同的风险和限制。

像其他大型语言模型一样,我们在训练数据的多样性(或缺乏多样性)产生下游对模型质量的影响时,OPT-175B在偏见和安全方面存在局限性。OPT-175B在生成的多样性和虚构方面也存在质量问题。总的来说,OPT-175B不免受困扰现代大型语言模型的众多问题。

BLIP2在从互联网收集的图像文本数据集(例如 LAION )上进行了精调。因此,模型本身有可能生成同样不适当的内容或复制基础数据中的固有偏见。

BLIP2尚未在真实世界应用中进行测试。它不应直接部署在任何应用程序中。研究人员在部署模型之前应仔细评估其在特定上下文中的安全性和公平性。

如何使用

有关代码示例,请参考 documentation