模型:

microsoft/git-base-textvqa

英文

GIT(GenerativeImage2Text),在TextVQA上进行了基础大小的微调

GIT(GenerativeImage2Text的简称)模型,基础大小版本,在TextVQA上进行了微调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出,并于 this repository 首次发布。

声明:发布GIT的团队没有为该模型撰写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。

模型描述

GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型通过“教师强迫”在大量(图像,文本)对上进行训练。

模型的目标是根据图像令牌和前面的文本令牌预测下一个文本令牌。

该模型完全可以访问(即在图像补丁令牌上使用了双向注意掩码),但在预测下一个文本令牌时,只能访问前面的文本令牌(即在文本令牌上使用了因果注意掩码)。

这使得该模型可以用于任务,例如:

  • 图像和视频字幕
  • 图像和视频的视觉问答(VQA)
  • 甚至图像分类(只需将模型置于图像上,并要求其用文本生成相应的类别)。

预期用途和限制

您可以将原始模型用于视觉问答(VQA)。查看 model hub 以查找您感兴趣的任务的微调版本。

如何使用

有关代码示例,请参考 documentation

训练数据

根据论文:

我们收集了80亿个图像-文本对进行预训练,其中包括COCO(Lin等,2014)、概念字幕(CC3M)(Sharma等,2018)、SBU(Ordonez等,2011)、视觉基因组(VG)(Krishna等,2016)、概念字幕(CC12M)(Changpinyo等,2021)、ALT200M(Hu等,2021a)以及Hu等(2021a)中的另外60亿数据,其采用了类似的收集过程。

=> 但这是针对论文中所称的“GIT”模型,该模型没有开源。

此检查点是“GIT-base”,是在1000万个图像-文本对上训练的GIT的较小变种。

接下来,该模型在TextVQA上进行了微调。

更多详情请参见 paper 中的表11。

预处理

关于训练期间的预处理详细信息,请参考原始代码库。

在验证过程中,将每个图像的较短边缘进行调整大小,然后进行中心裁剪以获得固定大小的分辨率。接下来,使用ImageNet的均值和标准差对RGB通道进行归一化处理。

评估结果

有关评估结果,请参考 paper