模型:

microsoft/git-large-vqav2

英文

GIT(GenerativeImage2Text),在VQAv2上进行了大规模细调

GIT(即GenerativeImage2Text)模型是VQAv2上进行了大规模细调的大型版本。它由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 年的论文中首次提出,并在 this repository 年首次发布。

免责声明:发布GIT的团队未为该模型撰写模型卡,因此该模型卡是由Hugging Face团队编写的。

模型描述

GIT是一个在CLIP图像标记和文本标记条件下的Transformer解码器。该模型使用“教师强制”在许多(图像,文本)对上进行训练。

模型的目标很简单,即在给定图像标记和先前文本标记的情况下预测下一个文本标记。

该模型可以完全访问(即用于)图像块标记,但仅在预测下一个文本标记时才能访问先前的文本标记(即对于文本标记,使用的是因果性注意力掩码)。

这使得该模型可用于以下任务:

  • 图像和视频字幕
  • 图像和视频的视觉问答(VQA)
  • 甚至图像分类(只需将模型与图像关联,并要求生成相应的文本类)。

预期用途和限制

您可以使用原始模型进行视觉问答(VQA)。请查看 model hub 以了解您感兴趣的任务上进行了细调的版本。

如何使用

有关代码示例,请参见 documentation

训练数据

根据论文:

我们收集了80亿个图像-文本对进行预训练,其中包括COCO(Lin等人,2014年),概念字幕(CC3M)(Sharma等人,2018年),SBU(Ordonez等人,2011年),Visual Genome(VG)(Krishna等人,2016年),概念字幕(CC12M)(Changpinyo等人,2021年),ALT200M(Hu等人,2021a年),以及与Hu等人(2021a年)中的类似收集过程多收集的60亿个额外数据。

=> 但是,这是针对论文中所指的非开源模型“GIT”而言的。

该检查点是“GIT-large”,是在2000万个图像-文本对上训练的GIT的较小变体。

然后,该模型在VQAv2上进行了细调。

有关详细信息,请参见 paper 中的表11。

预处理

关于训练期间的预处理详细信息,请参考原始repo。

在验证期间,会调整每个图像的较短边,然后进行中心裁剪以获得固定尺寸的分辨率。接下来,会使用ImageNet的均值和标准差对RGB通道进行归一化。

评估结果

有关评估结果,请参阅 paper