模型:
microsoft/git-large-r
*R 表示 "通过删除cc12m数据集中的一些冒犯性标题重新训练"。
GIT(即GenerativeImage2Text)模型,是大型版本。它是由王等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中介绍并首次发布于 this repository 。
免责声明:发布GIT模型的团队没有为此模型编写模型卡,因此此模型卡是由Hugging Face团队编写的。
GIT是一个基于CLIP图像标记和文本标记之间关系的Transformer解码器。该模型使用"teacher forcing"在大量的(图像、文本)对上进行训练。
模型的目标就是在给定图像标记和前文本标记的情况下,预测下一个文本标记。
该模型能够完全访问图像块标记(即使用双向注意力掩码)并且只能在预测下一个文本标记时访问前文本标记(即使用因果注意力掩码)。
这使得该模型可用于以下任务:
您可以使用原始模型进行图像字幕生成。有关您感兴趣任务的精调版本,请参考 model hub 。
有关代码示例,请参阅 documentation 。
根据论文:
我们收集了0.8B的图像-文本对进行预训练,其中包括COCO(Lin等人,2014)、概念字幕(CC3M)(Sharma等人,2018)、SBU(Ordonez等人,2011)、Visual Genome(VG)(Krishna等人,2016)、概念字幕(CC12M)(Changpinyo等人,2021)、ALT200M(Hu等人,2021a),以及按照Hu等人(2021a)中类似的数据收集过程收集的额外0.6B数据。
=> 然而,这是论文中所提到的名为"GIT"的模型,并没有开源。
这个检查点是"GIT-large",是在2000万图像-文本对上训练的GIT的一个较小变体。
有关详细信息,请参见 paper 中的表11。
有关训练期间预处理的详细信息,请参阅原始存储库。
在验证期间,将调整每个图像的较短边的大小,然后进行中心裁剪至固定分辨率。接下来,通过使用ImageNet的均值和标准差对帧在RGB通道上进行归一化。
有关评估结果,请参阅 paper 。