模型:
microsoft/git-base-textcaps
GIT(即GenerativeImage2Text)模型,基于TextCaps进行了基准尺寸的精调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中介绍,并于 this repository 首次发布。
免责声明:发布GIT的团队未为此模型编写模型卡片,因此本模型卡片由Hugging Face团队撰写。
GIT是一个Transformer解码器,其条件是CLIP图像令牌和文本令牌。该模型使用“teacher forcing”在大量(图像,文本)对上进行训练。
模型的目标是根据图像令牌和先前的文本令牌预测下一个文本令牌。
在预测下一个文本令牌时,模型完全访问(即使用双向注意力掩码)图像补丁令牌,但只能访问先前的文本令牌(即使用因果性注意力掩码)。
这使得该模型可用于以下任务:
您可以使用原始模型进行图像字幕。请查看 model hub 以查找您感兴趣的任务的经过精调的版本。
关于代码示例,我们参考 documentation 。
根据论文:
我们采集了80亿个图像-文本对进行预训练,包括COCO(Lin et al。,2014),Conceptual Captions(CC3M)(Sharma et al。,2018),SBU(Ordonez et al。,2011),Visual Genome(VG)(Krishna et al。,2016),Conceptual Captions(CC12M)(Changpinyo et al。,2021),ALT200M(Hu et al。,2021a),以及在Hu et al。(2021a)中采用类似的收集过程额外的60亿个数据。
=> 然而,这是针对论文中所指的未开源的“GIT”模型。
此检查点为“GIT-base”,是在1000万个图像-文本对上训练的GIT的较小变体。
接下来,模型在TextCaps上进行了精调。
更多详细信息,请参见 paper 中的表11。
有关训练期间的预处理细节,请参考原始存储库。
在验证期间,将每个图像的较短边调整大小,然后进行中心裁剪以固定大小分辨率。接下来,通过ImageNet的平均值和标准差对RGB通道进行归一化。
关于评估结果,我们请读者参考 paper 。