模型:
microsoft/git-large-textvqa
GIT(GenerativeImage2Text)模型是在TextVQA上进行了微调的大规模版本。该模型由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出,并在 this repository 中首次发布。
免责声明:发布GIT的团队没有为该模型撰写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。
GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。训练模型时使用"teacher forcing"方法处理大量(图像,文本)对。
该模型的目标仅是在给定图像令牌和先前文本令牌的情况下,预测下一个文本令牌。
模型完全可以访问(即在图像令牌上使用双向注意掩码),但只能在预测下一个文本令牌时访问先前的文本令牌(即在文本令牌上使用因果注意掩码)。
这使得该模型可以用于以下任务:
您可以使用原始模型进行视觉问答(VQA)。请参阅 model hub 以查找您感兴趣的任务的微调版本。
有关代码示例,请参考 documentation 。
根据论文:
我们收集了80亿个图像文本对进行预训练,其中包括COCO(Lin et al., 2014),概念标题CC3M(Sharma et al., 2018),SBU(Ordonez et al., 2011),Visual Genome(VG)(Krishna et al., 2016),概念标题CC12M(Changpinyo et al., 2021),ALT200M(Hu et al., 2021a)以及Hu等人(2021a)中类似收集程序的额外60亿个数据。
=> 然而,这是指论文中称为"GIT"的模型,未开源。
这个检查点是"GIT-large",它是在2000万个图像文本对上训练的GIT的较小变体。
接下来,该模型在TextVQA上进行了微调。
有关更多详细信息,请参阅 paper 中的表11。
关于训练期间的预处理详细信息,请参考原始代码库。
在验证期间,将对每个图像的较短边进行调整大小,然后进行中心裁剪以固定分辨率。接下来,使用ImageNet的平均值和标准差对RGB通道进行归一化。
有关评估结果,请参阅 paper 。