GIT (GenerativeImage2Text)大型版本

GIT（GenerativeImage2Text的简称）模型，大型版本。它由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中介绍，并于 this repository 首次发布。

免责声明：发布GIT的团队没有为该模型编写模型卡，因此该模型卡是由Hugging Face团队编写的。

模型描述

GIT是一个基于CLIP图像令牌和文本令牌进行条件的Transformer解码器。该模型使用许多（图像，文本）对进行“teacher forcing”的训练。

该模型的目标仅是在给定图像令牌和先前文本令牌的情况下预测下一个文本令牌。

模型可以完全访问（即使用双向注意掩码）图像补丁令牌，并且仅在预测下一个文本令牌时才能访问先前的文本令牌（即使用因果注意掩码）。

这使得模型可以用于以下任务：

图像和视频标题
图像和视频的视觉问答（VQA）
甚至图像分类（仅通过将模型置于图像上并要求其生成相应的文本类别）

预期用途和限制

您可以使用原始模型进行图像标题。有关您感兴趣的任务的微调版本，请参阅 model hub 。

使用方法

有关代码示例，请参阅 documentation 。

训练数据

从论文中得知：

我们收集了8亿个图像-文本对进行预训练，其中包括COCO（Lin等人，2014年），Conceptual Captions(CC3M)（Sharma等人，2018年），SBU（Ordonez等人，2011年），Visual Genome（VG）（Krishna等人，2016年），概念说明（CC12M）（Changpinyo等人，2021年），ALT200M（Hu等人，2021a）和额外的6亿数据，遵循Hu等人（2021a）中类似的收集过程。

=> 然而，这适用于论文中提到的“GIT”模型，该模型未开源。

此检查点是“GIT-large”，是在2000万个图像-文本对上训练的GIT的较小变体。

有关更多详细信息，请参阅 paper 中的表11。

预处理

有关培训期间预处理的详细信息，请参阅原始存储库。

在验证期间，将缩放每个图像的较短边，然后执行中心裁剪以获得固定大小的分辨率。接下来，通过ImageNet的均值和标准差对RGB通道进行归一化处理。

评估结果

有关评估结果，请参阅 paper 。

作者:

Microsoft

数据集大小:

1.47 GB