模型:

laion/CLIP-convnext_base_w_320-laion_aesthetic-s13B-b82K

任务:

零样本图像分类

类库:

TensorBoard OpenCLIP

其他:

clip

预印本库:

arxiv:2201.03545 arxiv:1910.04867

许可:

mit

模型介绍文件清单

英文

CLIP-convnext_base_w-320.laion_aesthetic-s13B-b82k 的模型卡

模型详情

模型描述

CLIP-convnext_base_w-320.laion_aesthetic-s13B-b82k 是一系列在 LAION-5B 数据集（ https://laion.ai/blog/laion-5b/ ）上使用 OpenCLIP（ https://github.com/mlfoundations/open_clip ）训练的 CLIP 模型。其中包括了多个使用宽嵌入维度（wide embed dim）的 CLIP 模型。

目标：

探索一种可扩展的替代 ViT 和 ResNet （带有 AttentionPooling 的） CLIP 模型，能够适应更大的模型规模和图像分辨率

首次尝试：

已知的首个 ConvNeXt CLIP 模型，在 CLIP ViT-B/16 和 RN50x4 模型的模型规模范围内进行了大规模训练
首次发布模型权重，通过增加数据增强（更大范围的 RRC、随机擦除、随机深度）探索增加图像塔（image tower）的正则化+数据增强

该模型使用 ConvNeXt-Base 模型（convnext_base）作为图像塔，并使用与 OpenAI CLIP 中 RN50x4 模型相同的文本塔（深度 12，嵌入维度 640）。基础模型训练时使用的图像分辨率为 256x256，与 RN50x4 模型的 FLOPs 和激活计数大致相当。在模型名称中包含“320”的模型在尺寸为 320x320 训练。

该系列中的所有模型均在 130亿个样本上进行了训练，并且 ImageNet 零样机 top-1 的准确率达到了 70.8% 或以上。与 340亿个样本的 Zero-Shot 准确率为 70.2%（130亿个样本为 68.1%）的 ViT-B/16 模型相比，这表明在这个模型规模范围内，ConvNeXt 架构可能在样本效率方面更高。需要进行更多实验证实。

RRC = 随机调整大小裁剪（crop pcts），RE = 随机擦除（prob），SD = 随机深度（prob）-- 仅应用于图像塔

LAION-A = LAION Aesthetic，是 LAION-2B 的大约9亿样本的子集，采用了 pHash 去重和美学评分筛选。

该模型的训练由 Ross Wightman 在 stability.ai 群集和 JUWELS Booster 超级计算机上完成。详见下方致谢。

用途

与原始 CLIP 模型相同，该模型旨在为研究社区提供研究成果。我们希望该模型能使研究人员更好地理解和探索零样机、任意图像分类问题。我们还希望它可以用于跨学科领域研究，探索这种模型潜在影响的可能性。

OpenAI CLIP 论文中提供了潜在影响的讨论，为此类分析提供了一个示例。此外，LAION-5B 博客（ https://laion.ai/blog/laion-5b/ ）和即将发布的论文中还包括与训练数据集相关的讨论。

直接使用

零样机图像分类、图像和文本检索等。

下游应用

图像分类和其他图像任务微调、线性探针图像分类、图像生成的引导和条件控制等。

范围之外的用途

与 OpenAI 模型一样，当前不适用于模型的任何部署用例，无论是商业用途还是其他用途。除非对模型进行了具体领域的测试并使用了特定的、固定的类别分类体系，否则也不建议使用限制环境下的图像搜索等非部署用例。这是因为我们的安全评估表明，尤其是考虑到 CLIP 在不同类别分类体系下的性能差异，任务特定的测试非常重要，目前任何未经测试和无限制部署的模型在任何用例中都可能具有潜在的危险性。

无论模型的性能如何，始终不适用于与监视和面部识别相关的领域。这是因为目前在这些任务中使用人工智能技术可能过早，缺乏测试规范和确保其公平使用的检查机制。

由于该模型在目的上没有专门训练过和在其他语言上进行过评估，因此其使用应仅限于英语语言使用案例。

除上述注意事项之外，使用这些模型训练的 LAION-5B 数据集还有其他注意事项，请见下文。

训练详情

训练数据

该模型使用以下数据集之一进行训练（详见介绍中的表格）：

LAION-2B - LAION-5B 的20亿个英语样本子集（ https://laion.ai/blog/laion-5b/ ）。
LAION-Aesthetic - LAION-2B 的9亿个样本子集，包含了 pHash 去重和美学分数筛选。

重要提示：数据集的创建旨在使大规模多模型训练和处理未筛选的大规模互联网数据集的研究和实验民主化。因此，我们建议将数据集用于研究目的。请注意，这种大规模数据集的未筛选性质意味着收集到的链接可能包含对人类观看者来说非常不适宜和令人不安的内容。因此，请谨慎使用演示链接并自行承担风险。可以通过使用我们构建的自定义训练的NSFW分类器基于安全标签过滤样本来提取“安全”子集。虽然这在观看时大大减少了遇到潜在有害内容的机会，但我们不能完全排除安全模式中仍然存在有害内容的可能性，因此警告仍然有效。我们认为，向广泛的研究和其他感兴趣的社区提供数据集将允许透明地研究训练大规模模型的好处，以及在使用受限的大型数据集进行工作时可能保持未报告或未注意到的风险和危险。提供我们的数据集是公开的，但我们不建议将其用于创建成熟的工业产品，因为我们此次发布旨在鼓励关于此类大规模模型的一般性属性和安全性的基础研究仍在进行中。

训练过程

所有模型都使用全局批量大小为 81920 进行训练，64 个检查点间隔约 2.037 亿个样本，总共训练约 130 亿个样本。

对于 256x256 模型，在 20 个8-GPU（A100 40GB）节点（稳定性测试）上使用以下 srun 命令进行训练：

对于 320x320 模型，与上述相同，但是使用32个8-GPU节点，在 JUWELs 上进行本地批处理大小 320 的训练，或者使用 64 个4-GPU 节点。

评估

评估使用 LAION CLIP Benchmark suite 中的代码进行。

测试数据、因素和指标

测试数据

使用 VTAB+ 进行测试（将 VTAB（ https://arxiv.org/abs/1910.04867 ）与其他强用例数据集相结合）进行分类，使用 COCO 和 Flickr 进行检索。

结果

该模型在 ImageNet-1k 上取得了介于 70.8% 和 71.7% 的零样机 top-1 准确率。

已在更广泛的数据集范围上进行了初步的基准测试，可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 中查看。

作为探索增加数据增强和正则化的一部分，早期评估表明，augreg 训练的模型在更广泛的分辨率范围内评估效果良好。这对于 320x320 LAION-A 模型尤其明显，其中在训练分辨率 320x320 下评估时，augreg 运行结果低于非 augreg（71.3 对 71.7），但是在 384x384 下评估时，augreg 提高到了 72.2（非 augreg 在 384x384 下降至 71.0）。

致谢

感谢 stability.ai 和 Gauss Centre for Supercomputing e.V. （ http://gauss-centre.eu ）通过 John von Neumann Institute for Computing（NIC）在 Jülich Supercomputing Centre （JSC）的 GCS Supercomputer JUWELS Booster 提供计算时间资助这部分工作。

引用

BibTeX：

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIP software

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

OpenAI CLIP paper

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@Article{liu2022convnet,
  author  = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
  title   = {A ConvNet for the 2020s},
  journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year    = {2022},
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}

作者:

LAION eV

数据集大小:

1.38 GB