BLIP-2模型是在 Flan T5-xl (一个大型语言模型)的基础上开发的。它在《 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 》一文中由Li等人介绍,并于《 this repository 》首次发布。
免责声明:发布BLIP-2的团队没有为该模型撰写模型卡片,因此该模型卡片是由Hugging Face团队编写的。
BLIP-2包含3个模型:一个类似CLIP的图像编码器,一个查询Transformer(Q-Former)和一个大型语言模型。
作者从预训练的检查点中初始化图像编码器和大型语言模型的权重,并在训练查询Transformer时保持它们冻结。查询Transformer是一个类似BERT的Transformer编码器,它将一组“查询标记”映射到查询嵌入,这样可以弥合图像编码器和大型语言模型的嵌入空间之间的差距。
模型的目标是根据查询嵌入和之前的文本来预测下一个文本标记。
这使得该模型可以用于以下任务:
您可以使用原始模型根据图像和可选文本进行条件文本生成。请参阅《 model hub 》,以查找您感兴趣的任务的微调版本。
BLIP2-FlanT5使用现成的Flan-T5作为语言模型。它从《 Flan-T5 》中继承了相同的风险和限制:
语言模型,包括Flan-T5,可以按照Rae等人(2021)的观点潜在地以有害的方式用于语言生成。在没有对特定应用的安全性和公平性问题进行事先评估的情况下,不应直接使用Flan-T5在任何应用中。
BLIP2是在从互联网收集的图像-文本数据集(例如《 LAION 》)上进行微调的。因此,该模型本身可能容易生成同样不适当的内容或复制底层数据中的固有偏见。
BLIP2尚未在真实世界应用中进行过测试。不应直接部署在任何应用中。研究人员应首先仔细评估模型在特定上下文中的安全性和公平性。
有关代码示例,请参阅《 documentation 》。