模型:

laion/CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k

类库:

OpenCLIP

预印本库:

arxiv:1910.04867

许可:

mit

模型介绍文件清单

英文

CLIP ViT-H/14 冻结的xlm roberta large - LAION-5B模型卡

模型详情

模型描述

使用LAION-5B数据集在OpenCLIP上对CLIP ViT-H/14冻结的xlm roberta large模型进行训练。

该模型由Romain Beaumont在 stability.ai 集群上进行训练。

使用方法

直接使用

零样本图像分类，图像和文本检索等。

下游应用

图像分类和其他图像任务微调，线性探测图像分类，图像生成引导和条件设置等。

训练详情

训练数据

该模型使用完整的LAION-5B数据集进行训练。

训练过程

使用样本规模为13B的laion5B数据集，批大小为90k进行训练，详见 https://wandb.ai/rom1504/open-clip/reports/xlm-roberta-large-unfrozen-vit-h-14-frozen--VmlldzoyOTc3ODY3 。

模型在视觉方面是H/14，在文本方面使用xlm roberta large进行预训练。

H/14模型从 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K 初始化，并在训练过程中保持冻结。

评估

使用 LAION CLIP Benchmark suite 中的代码进行评估。

测试数据、因素与指标

测试数据

使用VTAB+（VTAB（ https://arxiv.org/abs/1910.04867 ）与其他鲁棒性数据集的组合）进行分类，使用COCO和Flickr进行检索。

结果

该模型在imagenet 1k上达到77.0%的准确率（对比英文H/14的78%）。

在使用翻译提示进行imagenet的零样本分类时，该模型的表现如下：

意大利语达到56%（对比 https://github.com/clip-italian/clip-italian 的21%）
日语达到53%（对比 https://github.com/rinnakk/japanese-clip 的54.6%）
中文达到55.7%（与 https://github.com/OFA-Sys/Chinese-CLIP 进行比较）

该模型在英文和其他语言上均取得了良好的结果。

致谢

感谢 stability.ai 提供的计算资源用于训练该模型。

引用

BibTeX:

除了即将推出的LAION-5B论文外，请引用：

OpenAI CLIP论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

如何开始使用该模型

https://github.com/mlfoundations/open_clip

作者:

LAION eV

数据集大小:

4.46 GB