模型:

laion/CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k

类库:

OpenCLIP

预印本库:

arxiv:1910.04867

许可:

mit
英文

CLIP ViT-H/14 冻结的xlm roberta large - LAION-5B模型卡

目录

  • 模型详情
  • 使用方法
  • 训练详情
  • 评估
  • 致谢
  • 引用
  • 如何开始使用该模型
  • 模型详情

    模型描述

    使用LAION-5B数据集在OpenCLIP上对CLIP ViT-H/14冻结的xlm roberta large模型进行训练。

    该模型由Romain Beaumont在 stability.ai 集群上进行训练。

    使用方法

    直接使用

    零样本图像分类,图像和文本检索等。

    下游应用

    图像分类和其他图像任务微调,线性探测图像分类,图像生成引导和条件设置等。

    训练详情

    训练数据

    该模型使用完整的LAION-5B数据集进行训练。

    训练过程

    使用样本规模为13B的laion5B数据集,批大小为90k进行训练,详见 https://wandb.ai/rom1504/open-clip/reports/xlm-roberta-large-unfrozen-vit-h-14-frozen--VmlldzoyOTc3ODY3

    模型在视觉方面是H/14,在文本方面使用xlm roberta large进行预训练。

    H/14模型从 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K 初始化,并在训练过程中保持冻结。

    评估

    使用 LAION CLIP Benchmark suite 中的代码进行评估。

    测试数据、因素与指标

    测试数据

    使用VTAB+(VTAB( https://arxiv.org/abs/1910.04867 )与其他鲁棒性数据集的组合)进行分类,使用COCO和Flickr进行检索。

    结果

    该模型在imagenet 1k上达到77.0%的准确率(对比英文H/14的78%)

    在使用翻译提示进行imagenet的零样本分类时,该模型的表现如下:

    该模型在英文和其他语言上均取得了良好的结果。

    致谢

    感谢 stability.ai 提供的计算资源用于训练该模型。

    引用

    BibTeX:

    除了即将推出的LAION-5B论文外,请引用:

    OpenAI CLIP论文

    @inproceedings{Radford2021LearningTV,
      title={Learning Transferable Visual Models From Natural Language Supervision},
      author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
      booktitle={ICML},
      year={2021}
    }
    

    OpenCLIP软件

    @software{ilharco_gabriel_2021_5143773,
      author       = {Ilharco, Gabriel and
                      Wortsman, Mitchell and
                      Wightman, Ross and
                      Gordon, Cade and
                      Carlini, Nicholas and
                      Taori, Rohan and
                      Dave, Achal and
                      Shankar, Vaishaal and
                      Namkoong, Hongseok and
                      Miller, John and
                      Hajishirzi, Hannaneh and
                      Farhadi, Ali and
                      Schmidt, Ludwig},
      title        = {OpenCLIP},
      month        = jul,
      year         = 2021,
      note         = {If you use this software, please cite it as below.},
      publisher    = {Zenodo},
      version      = {0.1},
      doi          = {10.5281/zenodo.5143773},
      url          = {https://doi.org/10.5281/zenodo.5143773}
    }
    

    如何开始使用该模型

    https://github.com/mlfoundations/open_clip