模型:
microsoft/git-base-vatex
GIT(GenerativeImage2Text)模型,基于VATEX微调的base-sized版本。该模型由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中提出,并于 this repository 首次发布。
免责声明:发布GIT模型的团队并未为该模型编写模型卡,因此该模型卡由Hugging Face团队编写。
GIT是一个在CLIP图像令牌和文本令牌两者上进行条件编码的Transformer解码器。该模型在大量的(图像、文本)对上使用"teacher forcing"进行训练。
模型的目标是根据图像令牌和先前的文本令牌来预测下一个文本令牌。
该模型对图像块令牌具有完全访问权限(即使用双向注意力掩码),但仅在预测下一个文本令牌时才能访问先前的文本令牌(即使用因果注意力掩码)。
这使得该模型可以用于以下任务:
您可以在视频描述中使用原始模型。您可以查看 model hub 以寻找您感兴趣的任务的微调版本。
有关代码示例,请参阅 documentation 。
来自论文的描述:
我们收集了80亿个图像-文本对进行预训练,其中包括COCO(Lin等,2014),概念描述(CC3M)(Sharma等,2018),SBU(Ordonez等,2011),视觉基因组(VG)(Krishna等,2016),概念描述(CC12M)(Changpinyo等,2021),ALT200M(Hu等,2021a),以及根据Hu等(2021a)中的类似收集过程额外的60亿数据。
=> 然而,这是指论文中非开源的名为" GIT "的模型。
此检查点为" GIT-base",是在1000万个图像-文本对上训练的GIT的较小变体。
接下来,该模型在VATEX上进行了微调。
有关详细信息,请参阅 paper 中的表11。
关于训练期间的详细预处理信息,请参阅原始回购。
在验证期间,将每个图像的较短边缘调整大小,然后进行中心裁剪以获得固定大小的分辨率。然后,使用ImageNet的平均值和标准差对RGB通道进行归一化。
有关评估结果,请参阅 paper 。