模型:

laion/CLIP-ViT-H-14-laion2B-s32B-b79K

英文

CLIP ViT-H/14 - LAION-2B 模型卡

目录

  • 模型详情
  • 使用方式
  • 训练详情
  • 评估
  • 鸣谢
  • 引用
  • 如何开始使用模型
  • 模型详情

    模型描述

    使用 LAION-5B 数据集的 LAION-2B 英文子集( https://laion.ai/blog/laion-5b/ )在 OpenCLIP( https://github.com/mlfoundations/open_clip )上训练的 CLIP ViT-H/14 模型。

    模型训练由 Romain Beaumont 在 stability.ai 集群上完成。

    使用方式

    与原始设置相同,该模型旨在成为研究界的研究成果。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图像分类。我们还希望它可以用于跨学科研究,以研究这种模型的潜在影响。

    OpenAI 有关 CLIP 的论文提供了潜在下游影响的讨论,作为这种分析的一个例子。此外,LAION-5B 博客( https://laion.ai/blog/laion-5b/ )和即将发布的论文还提供了与训练数据集相关的其他讨论。

    直接使用

    零样本图像分类,图像和文本检索等。

    下游使用

    图像分类和其他图像任务微调,线性探测图像分类,图像生成引导和调整等。

    超出范围的使用

    与 OpenAI 模型一样,任何已部署的模型使用情况(无论商业还是非商业)目前都不在讨论范围内。未部署的使用情况,例如在受限环境中进行图像搜索,也不建议,除非使用特定固定类别分类法对模型进行了彻底的领域测试。这是因为我们的安全评估表明,需要对任务进行具体测试,特别是考虑到 CLIP 在不同类别分类法下的性能变化。因此,目前在任何使用情况下,未经测试和无约束地部署模型可能具有潜在的危害性。

    无论模型性能如何,监控和面部识别等领域的某些使用情况始终不在讨论范围内。这是因为目前使用人工智能进行此类任务可能还为时过早,因缺乏测试规范和确保公平使用的检查措施。

    由于该模型没有经过有目的地的训练和评估,除了英语之外的任何语言的使用应该是有限的。

    对于以上声明,该模型在训练中使用的 LAION-5B 数据集还有其他注意事项,请参阅下文。

    训练详情

    训练数据

    该模型使用 LAION-5B( https://laion.ai/blog/laion-5b/ )的 20 亿个样本的英文子集进行训练。

    重要提示:数据集的创建动机是为了使大规模多模态模型训练和处理非策划、大规模从公开可用的互联网中获取的数据集的研究和实验更加民主化。因此,我们建议仅将该数据集用于研究目的。请注意,这个大规模数据集是非策划的。请记住,数据集的非策划本质意味着所收集的链接可能对人类观看者来说具有强烈的不适和令人不安的内容。因此,请谨慎使用演示链接,并自行承担风险。可以通过根据安全标签过滤样本(使用我们构建的自定义 NSFW 分类器)提取“安全”子集来极大地减少在查看过程中遇到潜在有害内容的机会。虽然这样做可以大大减少在安全模式下遇到潜在有害内容的可能性,但我们无法完全排除在安全模式下仍存在有害内容的可能性,因此警告仍然适用。我们认为,向广泛的研究和其他感兴趣的社区公开提供数据集将有助于透明地探索与训练大规模模型相关的好处,以及在使用封闭的大型数据集进行工作时可能未报告或未注意到的陷阱和危险。然而,通过向研究和实验室提供我们的数据集,我们并不建议将其用于创建即用型的工业产品,因为对于此类大规模模型的一般属性和安全性的基础研究仍在进行中,并且我们希望通过此发布鼓励这种研究。

    训练过程

    请参阅 training notes wandb logs

    评估

    使用 LAION CLIP Benchmark suite 中的代码进行评估。

    测试数据、因素和指标

    测试数据

    使用 VTAB+(VTAB( https://arxiv.org/abs/1910.04867 )与其他鲁棒性数据集的结合)进行分类,使用 COCO 和 Flickr 进行检索。

    TODO - 更多细节

    结果

    该模型在 ImageNet-1k 上实现了 78.0% 的零样本 top-1 准确率。

    已对更广泛的数据集进行了初始一轮基准测试,目前可以在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。

    TODO - 创建仅包含该模型指标的表格。

    鸣谢

    感谢使用计算资源的 stability.ai

    引用

    BibTeX:

    LAION-5B

    @inproceedings{schuhmann2022laionb,
      title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
      author={Christoph Schuhmann and
              Romain Beaumont and
              Richard Vencu and
              Cade W Gordon and
              Ross Wightman and
              Mehdi Cherti and
              Theo Coombes and
              Aarush Katta and
              Clayton Mullis and
              Mitchell Wortsman and
              Patrick Schramowski and
              Srivatsa R Kundurthy and
              Katherine Crowson and
              Ludwig Schmidt and
              Robert Kaczmarczyk and
              Jenia Jitsev},
      booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
      year={2022},
      url={https://openreview.net/forum?id=M3Y74vmsMcY}
    }
    

    OpenAI CLIP 论文

    @inproceedings{Radford2021LearningTV,
      title={Learning Transferable Visual Models From Natural Language Supervision},
      author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
      booktitle={ICML},
      year={2021}
    }
    

    OpenCLIP 软件

    @software{ilharco_gabriel_2021_5143773,
      author       = {Ilharco, Gabriel and
                      Wortsman, Mitchell and
                      Wightman, Ross and
                      Gordon, Cade and
                      Carlini, Nicholas and
                      Taori, Rohan and
                      Dave, Achal and
                      Shankar, Vaishaal and
                      Namkoong, Hongseok and
                      Miller, John and
                      Hajishirzi, Hannaneh and
                      Farhadi, Ali and
                      Schmidt, Ludwig},
      title        = {OpenCLIP},
      month        = jul,
      year         = 2021,
      note         = {If you use this software, please cite it as below.},
      publisher    = {Zenodo},
      version      = {0.1},
      doi          = {10.5281/zenodo.5143773},
      url          = {https://doi.org/10.5281/zenodo.5143773}
    }
    

    如何开始使用模型

    使用以下代码即可开始使用模型。

    ** TODO ** - Hugging Face Transformers、OpenCLIP 和 timm 的入门示例