模型:
microsoft/git-base-vqav2
GIT(GenerativeImage2Text)模型是基于CLIP图像token和文本token的Transformer解码器。该模型使用“教师强制”训练了许多(图像,文本)对。
模型的目标只是在给定图像token和前文本token的情况下预测下一个文本token。
模型对于图像patch token具有完全访问权限(即双向注意力掩码用于图像patch token),但只有在预测下一个文本token时,才对前文本token进行访问(即因果性注意力掩码用于文本token)。
这使得该模型可用于以下任务:
您可以将原始模型用于视觉问答(VQA)。请参阅有关您感兴趣的任务的fine-tuned版本的详情。
有关代码示例,请参阅:
来自论文:
我们收集了80亿个图像文本对进行预训练,其中包括COCO(Lin et al.,2014),概念字幕(CC3M)(Sharma et al.,2018),SBU(Ordonez et al.,2011),Visual Genome(VG)(Krishna et al.,2016),概念字幕(CC12M)(Changpinyo et al.,2021),ALT200M(Hu et al.,2021a),以及在Hu et al.(2021a)中使用类似的收集过程额外采集了0.6B的数据。
=> 但是这是指论文中未开源的“GIT”模型。
此检查点是“GIT-base”,是在1000万个图像文本对上训练的GIT的较小变体。
接下来,该模型在VQAv2上进行了精调。
有关详细信息,请参阅 paper 中的表11。
有关训练过程中的预处理详细信息,请参阅原始存储库。
在验证期间,会重设每个图像的较短边,然后进行中心裁剪以实现固定大小的分辨率。接下来,通过ImageNet的均值和标准差对RGB通道进行标准化。
有关评估结果,请参阅 paper 。