GIT (GenerativeImage2Text) ，基础型号，在VQAv2上进行了精调

GIT（GenerativeImage2Text）模型是基于CLIP图像token和文本token的Transformer解码器。该模型使用“教师强制”训练了许多（图像，文本）对。

模型的目标只是在给定图像token和前文本token的情况下预测下一个文本token。

模型对于图像patch token具有完全访问权限（即双向注意力掩码用于图像patch token），但只有在预测下一个文本token时，才对前文本token进行访问（即因果性注意力掩码用于文本token）。

这使得该模型可用于以下任务：

图像和视频字幕
图像和视频上的视觉问答（VQA）
甚至图像分类（只需将模型条件设置为图像，并要求它以文本形式生成类别）。

预期用途和限制

您可以将原始模型用于视觉问答（VQA）。请参阅有关您感兴趣的任务的fine-tuned版本的详情。

如何使用

有关代码示例，请参阅：

训练数据

来自论文：

我们收集了80亿个图像文本对进行预训练，其中包括COCO（Lin et al.，2014），概念字幕（CC3M）（Sharma et al.，2018），SBU（Ordonez et al.，2011），Visual Genome（VG）（Krishna et al.，2016），概念字幕（CC12M）（Changpinyo et al.，2021），ALT200M（Hu et al.，2021a），以及在Hu et al.（2021a）中使用类似的收集过程额外采集了0.6B的数据。

=> 但是这是指论文中未开源的“GIT”模型。

此检查点是“GIT-base”，是在1000万个图像文本对上训练的GIT的较小变体。

接下来，该模型在VQAv2上进行了精调。

有关详细信息，请参阅 paper 中的表11。

预处理

有关训练过程中的预处理详细信息，请参阅原始存储库。

在验证期间，会重设每个图像的较短边，然后进行中心裁剪以实现固定大小的分辨率。接下来，通过ImageNet的均值和标准差对RGB通道进行标准化。

评估结果

有关评估结果，请参阅 paper 。

作者:

Microsoft

数据集大小:

676.83 MB