模型:
microsoft/git-base-textvqa
GIT(GenerativeImage2Text的简称)模型,基础大小版本,在TextVQA上进行了微调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出,并于 this repository 首次发布。
声明:发布GIT的团队没有为该模型撰写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。
GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型通过“教师强迫”在大量(图像,文本)对上进行训练。
模型的目标是根据图像令牌和前面的文本令牌预测下一个文本令牌。
该模型完全可以访问(即在图像补丁令牌上使用了双向注意掩码),但在预测下一个文本令牌时,只能访问前面的文本令牌(即在文本令牌上使用了因果注意掩码)。
这使得该模型可以用于任务,例如:
您可以将原始模型用于视觉问答(VQA)。查看 model hub 以查找您感兴趣的任务的微调版本。
有关代码示例,请参考 documentation 。
根据论文:
我们收集了80亿个图像-文本对进行预训练,其中包括COCO(Lin等,2014)、概念字幕(CC3M)(Sharma等,2018)、SBU(Ordonez等,2011)、视觉基因组(VG)(Krishna等,2016)、概念字幕(CC12M)(Changpinyo等,2021)、ALT200M(Hu等,2021a)以及Hu等(2021a)中的另外60亿数据,其采用了类似的收集过程。
=> 但这是针对论文中所称的“GIT”模型,该模型没有开源。
此检查点是“GIT-base”,是在1000万个图像-文本对上训练的GIT的较小变种。
接下来,该模型在TextVQA上进行了微调。
更多详情请参见 paper 中的表11。
关于训练期间的预处理详细信息,请参考原始代码库。
在验证过程中,将每个图像的较短边缘进行调整大小,然后进行中心裁剪以获得固定大小的分辨率。接下来,使用ImageNet的均值和标准差对RGB通道进行归一化处理。
有关评估结果,请参考 paper 。