模型:

microsoft/git-large-r-textcaps

英文

GIT(GenerativeImage2Text),在TextCaps上进行了大型、精调的改进,R*

R = 在cc12m数据集中删除了一些不合适的描述而重新训练

GIT(GenerativeImage2Text)模型是基于CLIP图像令牌和文本令牌进行条件训练的Transformer解码器。该模型使用大量的(图像、文本)对进行"teacher forcing"训练。

模型的目标是根据图像令牌和前面的文本令牌预测下一个文本令牌。

模型对图像块令牌具有完全访问权限(即使用双向注意力掩码),但仅对前面的文本令牌具有访问权限(即在预测下一个文本令牌时使用因果注意力掩码)。

这使得该模型可用于以下任务:

  • 图像和视频的描述
  • 图像和视频的视觉问答(VQA)
  • 甚至是图像分类(只需将模型与图像结合,并要求其生成相应的文本类别)。

您可以使用原始模型进行图像描述。请查看感兴趣任务的 model hub 以寻找经过优化的版本。

如何使用,请参阅 documentation 中的代码示例。

训练数据来自于论文:

我们预先训练了80亿个图像-文本对,包括COCO(Lin等人,2014年),概念标题(CC3M)(Sharma等人,2018年),SBU(Ordonez等人,2011年),视觉基因组(VG)(Krishna等人,2016年),概念标题(CC12M)(Changpinyo等人,2021年),ALT200M(Hu等人,2021a年),以及Hu等人(2021a年)中的类似收集过程中的另外60亿个数据。

然而,这是指论文中所称的"GIT"模型,并没有开源。

该检查点是"GIT-large",是在2000万个图像-文本对上训练的GIT的较小变体。

然后,该模型在TextCaps上进行了精调。

有关训练期间预处理的详细信息,请参考原始存储库。

在验证期间,将调整每个图像的较短边,然后进行中心裁剪,使其具有固定的分辨率。接下来,帧在RGB通道上使用ImageNet的平均值和标准偏差进行归一化。

有关评估结果,请参阅 paper