模型:

laion/CLIP-convnext_base_w_320-laion_aesthetic-s13B-b82K-augreg

英文

CLIP-convnext_base_w-320.laion_aesthetic-s13B-b82k-augreg的模型卡

目录

  • 模型详细信息
  • 用途
  • 训练详细信息
  • 评估
  • 致谢
  • 引用
  • 模型详细信息

    模型描述

    一系列基于ConvNeXt-Base模型的CLIP模型,使用OpenCLIP在LAION-5B的子集上进行训练。

    目标:

    • 探索一种与ViT和ResNet(具有AttentionPooling)CLIP模型相比,在模型大小和图像分辨率上具有良好扩展性的替代方法

    首次:

    • 已知首个在CLIP ViT-B/16和RN50x4模型范围内大规模训练的ConvNeXt CLIP模型
    • 发布的模型权重首次探索通过添加更大尺度范围的RRC(随机调整尺寸裁剪)、随机擦除、随机深度(仅对图像塔进行操作)来增加图像塔的增强和正则化。

    这些模型使用ConvNeXt-Base模型(convnext_base)作为图像塔,并使用与OpenAI CLIP的RN50x4模型相同的文本塔。基础模型在256x256的图像分辨率下训练,并且在FLOPs和激活计数上与RN50x4模型大致相匹配。带有320的模型是在320x320下训练的。

    该系列的所有模型均训练了130亿个样本,并且在ImageNet零样本上的top-1精度为70.8%或更高。与34B SS的ViT-B/16的零样本精度为70.2%(13B SS为68.1%)相比,这表明ConvNeXt架构在这个模型规模范围内可能更具样本效率。需要进行更多实验证实。

    Model Dataset Resolution AugReg Top-1 ImageNet Zero-Shot (%)
    12310321 LAION-2B 256x256 RRC (0.9, 1.0) 70.8
    12311321 LAION-2B 256x256 RRC (0.33, 1.0), RE (0.35), SD (0.1) 71.5
    12312321 LAION-A 256x256 RRC (0.9, 1.0) 71.0
    12313321 LAION-A 320x320 RRC (0.9, 1.0) 71.7
    12314321 LAION-A 320x320 RRC (0.33, 1.0), RE (0.35), SD (0.1) 71.3

    RRC = 随机调整大小裁剪(裁剪百分比),RE = 随机擦除(概率),SD = 随机深度(概率)-仅对图像塔进行操作

    LAION-A = LAION Aesthetic,是LAION-2B的约9亿个样本子集,经过pHash去重和美学分数过滤。

    模型训练由Ross Wightman在 stability.ai 集群和 JUWELS Booster 超级计算机上完成。见下面的致谢。

    用途

    与原始 OpenAI CLIP model card 一样,该模型旨在为研究社区提供研究成果。我们希望这个模型能够帮助研究人员更好地了解和探索零样本、任意图像分类。我们还希望它能用于研究该模型可能产生的潜在影响的跨学科研究。

    OpenAI的CLIP论文提供了一个关于潜在下游影响的讨论,为这种分析提供了一个示例。此外,《LAION-5B博客》( https://laion.ai/blog/laion-5b/ )和即将发布的论文还包括有关训练数据集的其他讨论。

    直接使用

    零样本图像分类、图像和文本检索等。

    下游使用

    图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和条件化等。

    超出范围的使用

    根据OpenAI模型的要求,

    目前超出范围的部署用例-无论是否商业用途-都不在范围之内。除非对模型进行了特定的、固定的类别分类的特定领域测试,否则也不建议在受限环境中使用未经测试和非约束的模型进行图像搜索。这是因为我们的安全评估表明,鉴于CLIP在不同的类别分类中性能的变化,任务特定的测试特别重要。目前,这使得在任何用例中未经测试和非约束的部署模型可能会有潜在的危害。

    无论模型的性能如何,都不建议将其用于监控和面部识别等领域。这是因为目前在此类任务中使用人工智能可能过早,缺乏测试规范和确保公平使用的检查。

    由于该模型没有经过有目的地的多语言训练和评估,所以它的使用应局限于使用英语的用例。

    除上述声明外,用于训练这些模型的LAION-5B数据集还有其他考虑事项,请参见下面的内容。

    训练详细信息

    训练数据

    该模型使用以下数据集之一进行训练(请参见简介中的表格):

    • LAION-2B - LAION-5B的20亿个样本的英语子集( https://laion.ai/blog/laion-5b/ )。
    • LAION-Aesthetic - LAION-2B的约9亿个样本子集,经过pHash去重和美学分数过滤。

    重要提示:数据集的创建动机是为了使大规模多模态模型训练和处理未筛选的大规模数据集(从公开可获取的互联网上爬取)的研究和实验民主化。因此,我们建议将该数据集用于研究目的。请注意,这个大规模数据集是未筛选的。请记住,数据集的未筛选性意味着收集到的链接可能会对人类观看者造成强烈的不适和困扰。因此,请谨慎使用演示链接,并自担风险。可以通过使用我们构建的定制训练的NSFW分类器来提取“安全”子集。虽然这样可以大大降低在查看时遇到潜在有害内容的机会,但我们无法完全排除安全模式下仍然存在有害内容的可能性,因此警告仍然适用。我们认为,向广大研究和其他有兴趣的社区提供数据集将允许透明地研究与训练大规模模型相关的好处,以及使用在关闭的大规模数据集上进行工作时可能无法报告或察觉到的陷阱和危险。通过向广大研究和其他有兴趣的社区提供我们的数据集,我们不建议将其用于创建即用型工业产品,因为基础研究还在继续,重点是研究这些大规模模型的一般属性和安全性。

    训练过程

    所有模型的全局批量大小为81920,共64个检查点间隔的2.037亿个样本,总共训练了约130亿个样本。

    对于256x256模型,使用以下的slurm脚本和srun命令在20个8-GPU(A100 40GB)节点上进行训练(稳定性),然后切换到40个4-GPU节点在JUWELS上继续训练。

    /opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
        --save-frequency 1 \
        --name "convnext_256" \
        --resume 'latest' \
        --train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
        --train-num-samples 203666042 \
        --dataset-type webdataset \
        --precision amp_bfloat16 \
        --warmup 10000 \
        --batch-size=512 \
        --epochs=64 \
        --dataset-resampled \
        --clip-grad-norm 5.0 \
        --lr 1e-3 \
        --workers=6 \
        --model "convnext_base_w" \
        --seed 0 \
        --ddp-static-graph \
        --local-loss \
        --gather-with-grad \
        --grad-checkpointing
    

    对于320x320模型,与上述相同,但使用32个8-GPU节点,本地批量大小为320,或者使用64个4-GPU节点在JUWELS上进行训练。

    评估

    使用 LAION CLIP Benchmark suite 中的代码进行评估。

    测试数据、因素和指标

    测试数据

    使用VTAB+(将VTAB( https://arxiv.org/abs/1910.04867 )与其他鲁棒性数据集结合起来)进行分类测试,并使用COCO和Flickr进行检索测试。

    结果

    模型在ImageNet-1k上实现了70.8%到71.7%的零样本top-1准确率。

    已对更广泛的一系列数据集进行了初步基准测试,可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 中查看。

    作为探索增加的增强和正则化的一部分,初步评估表明,augreg训练的模型在更广范围的分辨率上获得很好的评估结果。尤其是对于320x320的LAION-A模型,在train分辨率320x320下评估时,augreg运行时会低于非augreg(71.3比71.7),但在384x384下评估时(非augreg下降到71.0),augreg提高到72.2。

    致谢

    感谢 stability.ai 和Gauss Centre for Supercomputing e.V.( http://gauss-centre.eu )通过Jülich Supercomputing Centre(JSC)的John von Neumann Institute for Computing(NIC)提供计算时间,为该工作提供资金支持。

    引用

    BibTeX

    LAION-5B

    @inproceedings{schuhmann2022laionb,
      title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
      author={Christoph Schuhmann and
              Romain Beaumont and
              Richard Vencu and
              Cade W Gordon and
              Ross Wightman and
              Mehdi Cherti and
              Theo Coombes and
              Aarush Katta and
              Clayton Mullis and
              Mitchell Wortsman and
              Patrick Schramowski and
              Srivatsa R Kundurthy and
              Katherine Crowson and
              Ludwig Schmidt and
              Robert Kaczmarczyk and
              Jenia Jitsev},
      booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
      year={2022},
      url={https://openreview.net/forum?id=M3Y74vmsMcY}
    }
    

    OpenCLIP 软件

    @software{ilharco_gabriel_2021_5143773,
      author       = {Ilharco, Gabriel and
                      Wortsman, Mitchell and
                      Wightman, Ross and
                      Gordon, Cade and
                      Carlini, Nicholas and
                      Taori, Rohan and
                      Dave, Achal and
                      Shankar, Vaishaal and
                      Namkoong, Hongseok and
                      Miller, John and
                      Hajishirzi, Hannaneh and
                      Farhadi, Ali and
                      Schmidt, Ludwig},
      title        = {OpenCLIP},
      month        = jul,
      year         = 2021,
      note         = {If you use this software, please cite it as below.},
      publisher    = {Zenodo},
      version      = {0.1},
      doi          = {10.5281/zenodo.5143773},
      url          = {https://doi.org/10.5281/zenodo.5143773}
    }
    

    OpenAI CLIP 论文

    @inproceedings{Radford2021LearningTV,
      title={Learning Transferable Visual Models From Natural Language Supervision},
      author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
      booktitle={ICML},
      year={2021}
    }
    
    @Article{liu2022convnet,
      author  = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
      title   = {A ConvNet for the 2020s},
      journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
      year    = {2022},
    }
    
    @misc{rw2019timm,
      author = {Ross Wightman},
      title = {PyTorch Image Models},
      year = {2019},
      publisher = {GitHub},
      journal = {GitHub repository},
      doi = {10.5281/zenodo.4414861},
      howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
    }