模型:
microsoft/git-large-r-textcaps
R = 在cc12m数据集中删除了一些不合适的描述而重新训练
GIT(GenerativeImage2Text)模型是基于CLIP图像令牌和文本令牌进行条件训练的Transformer解码器。该模型使用大量的(图像、文本)对进行"teacher forcing"训练。
模型的目标是根据图像令牌和前面的文本令牌预测下一个文本令牌。
模型对图像块令牌具有完全访问权限(即使用双向注意力掩码),但仅对前面的文本令牌具有访问权限(即在预测下一个文本令牌时使用因果注意力掩码)。
这使得该模型可用于以下任务:
您可以使用原始模型进行图像描述。请查看感兴趣任务的 model hub 以寻找经过优化的版本。
如何使用,请参阅 documentation 中的代码示例。
训练数据来自于论文:
我们预先训练了80亿个图像-文本对,包括COCO(Lin等人,2014年),概念标题(CC3M)(Sharma等人,2018年),SBU(Ordonez等人,2011年),视觉基因组(VG)(Krishna等人,2016年),概念标题(CC12M)(Changpinyo等人,2021年),ALT200M(Hu等人,2021a年),以及Hu等人(2021a年)中的类似收集过程中的另外60亿个数据。
然而,这是指论文中所称的"GIT"模型,并没有开源。
该检查点是"GIT-large",是在2000万个图像-文本对上训练的GIT的较小变体。
然后,该模型在TextCaps上进行了精调。
有关训练期间预处理的详细信息,请参考原始存储库。
在验证期间,将调整每个图像的较短边,然后进行中心裁剪,使其具有固定的分辨率。接下来,帧在RGB通道上使用ImageNet的平均值和标准偏差进行归一化。
有关评估结果,请参阅 paper 。