模型:

microsoft/git-base-vqav2

英文

GIT (GenerativeImage2Text) ,基础型号,在VQAv2上进行了精调

GIT(GenerativeImage2Text)模型是基于CLIP图像token和文本token的Transformer解码器。该模型使用“教师强制”训练了许多(图像,文本)对。

模型的目标只是在给定图像token和前文本token的情况下预测下一个文本token。

模型对于图像patch token具有完全访问权限(即双向注意力掩码用于图像patch token),但只有在预测下一个文本token时,才对前文本token进行访问(即因果性注意力掩码用于文本token)。

这使得该模型可用于以下任务:

  • 图像和视频字幕
  • 图像和视频上的视觉问答(VQA)
  • 甚至图像分类(只需将模型条件设置为图像,并要求它以文本形式生成类别)。

预期用途和限制

您可以将原始模型用于视觉问答(VQA)。请参阅有关您感兴趣的任务的fine-tuned版本的详情。

如何使用

有关代码示例,请参阅:

训练数据

来自论文:

我们收集了80亿个图像文本对进行预训练,其中包括COCO(Lin et al.,2014),概念字幕(CC3M)(Sharma et al.,2018),SBU(Ordonez et al.,2011),Visual Genome(VG)(Krishna et al.,2016),概念字幕(CC12M)(Changpinyo et al.,2021),ALT200M(Hu et al.,2021a),以及在Hu et al.(2021a)中使用类似的收集过程额外采集了0.6B的数据。

=> 但是这是指论文中未开源的“GIT”模型。

此检查点是“GIT-base”,是在1000万个图像文本对上训练的GIT的较小变体。

接下来,该模型在VQAv2上进行了精调。

有关详细信息,请参阅 paper 中的表11。

预处理

有关训练过程中的预处理详细信息,请参阅原始存储库。

在验证期间,会重设每个图像的较短边,然后进行中心裁剪以实现固定大小的分辨率。接下来,通过ImageNet的均值和标准差对RGB通道进行标准化。

评估结果

有关评估结果,请参阅 paper