模型:
microsoft/git-large-textcaps
GIT(GenerativeImage2Text)模型,大型版本,在TextCaps上进行了fine-tuned。该模型由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中提出,并于 this repository 首次发布。
免责声明:发布GIT的团队没有为该模型撰写模型卡,因此这个模型卡是由Hugging Face团队编写的。
GIT是一个Transformer解码器,其条件是CLIP图像token和文本token。该模型使用“teacher forcing”在许多(图像,文本)对上进行训练。
该模型的目标仅是在给定图像token和前一个文本token的情况下预测下一个文本token。
该模型完全可以访问图像补丁标记(即为图像补丁标记使用了双向注意力掩码),但仅在预测下一个文本token时可以访问前一个文本token(即为文本token使用了因果性注意力掩码)。
这使得该模型可以用于以下任务:
您可以使用原始模型进行图像字幕。请查看 model hub 以查找您感兴趣的任务的fine-tuned版本。
有关代码示例,请参阅 documentation 。
从论文中获取:
我们收集了80亿个图像文本对进行预训练,其中包括COCO(Lin等人,2014年),概念字幕(CC3M)(Sharma等人,2018年),SBU(Ordonez等人,2011年),视觉基因组(VG)(Krishna等人,2016年),概念字幕(CC12M)(Changpinyo等人,2021年),ALT200M(Hu等人,2021a年)以及在Hu等人(2021a年)中使用类似的数据收集程序获得的额外的60亿数据。
=> 但是,这适用于论文中所指的“GIT”模型,该模型未开源。
此检查点是“GIT-large”,它是在2000万图像文本对上训练的GIT的较小变体。
接下来,模型在TextCaps上进行了fine-tuned。
有关详细的预处理信息,请参考原始存储库。
在验证期间,将调整每个图像的较短边,然后对其进行固定大小的中心裁剪。然后,通过ImageNet的均值和标准差对RGB通道进行归一化。
有关评估结果,请参阅 paper 。