CLIP ViT-B/32模型使用OpenCLIP对LAION-5B的LAION-2B英文子集进行训练( https://laion.ai/blog/laion-5b/ )。
模型训练由Romain Beaumont在 stability.ai 集群上完成。
此模型旨在作为研究社区的研究成果。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图像分类。我们还希望它可以用于研究这种模型潜在影响的跨学科研究。
OpenAI的CLIP论文中包含了对潜在下游影响的讨论,以提供此类分析的示例。此外,LAION-5B博客( https://laion.ai/blog/laion-5b/ )和即将发布的论文涉及与训练数据集相关的其他讨论。
零样本图像分类、图像和文本检索等。
图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和调节等。
根据OpenAI模型的规定,模型的任何部署用途(包括商业用途和非商业用途)都超出了范围。未部署的用例,如受限环境中的图像搜索,也不推荐使用,除非对该模型进行了与特定固定类别分类体系的领域测试。这是因为我们的安全评估表明,针对特定任务的测试尤其重要,尤其是考虑到CLIP在不同类别分类体系下的性能变化。这使得当前模型在未经测试和无限制部署的任何用例中潜在存在危害。
无论模型的性能如何,特定于监视和人脸识别等领域的用例始终超出范围。这是因为当前使用人工智能进行此类任务可能过早,因为缺乏测试规范和确保其公平使用的检查机制。
由于该模型在除英语以外的任何语言上并未经过有针对性的训练和评估,因此其使用应限制在英语语言用例中。
另外,上述声明之外,该模型的训练使用的LAION-5B数据集还有其他注意事项,请参阅下文。
该模型使用了LAION-5B的20亿个样本的英文子集( https://laion.ai/blog/laion-5b/ )。
重要提示:创建数据集的动机是为了使大规模多模态模型训练和处理未经筛选的、从公共可用网络中爬取的大规模数据集的研究和实验民主化。因此,我们建议将该数据集用于研究目的。请注意,这个大规模数据集是未经筛选的。请记住,数据集的未经筛选性意味着收集的链接可能会导致对人类观众来说非常不适宜和令人不安的内容。因此,请谨慎使用演示链接并自行承担风险。可以通过基于安全标签(使用我们构建的自定义训练的NSFW分类器)从中提取“安全”子集。虽然这可以大大降低在查看时遇到潜在有害内容的机会,但不能完全排除在安全模式下仍然存在有害内容的可能性,因此警告仍然适用。我们认为向广大研究和其他感兴趣的社区提供数据集将有助于透明地研究大规模模型带来的好处,以及在使用封闭的大规模数据集进行工作时可能未被报道或未被注意到的陷阱和危险。然而,通过公开提供我们的数据集,我们并不建议将其用于创建现成可用的工业产品,因为我们希望通过此次发布来鼓励关于这种大规模模型的一般属性和安全性的基础研究仍在进行中。
请参阅 training notes 和 wandb logs 。
使用 LAION CLIP Benchmark suite 中的代码进行评估。
通过使用VTAB+(VTAB( https://arxiv.org/abs/1910.04867 )及其他鲁棒性数据集的组合)进行分类测试,并使用COCO和Flickr进行检索测试。
TODO-更多细节
该模型在ImageNet-1k上实现了66.6%的零样本top-1准确率。
针对更广泛的一系列数据集进行了初始一轮基准测试,目前可以在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 上查看。
TODO-为此模型的指标创建表。
感谢计算机 stability.ai 用于训练此模型。
BibTeX:
除了即将发布的LAION-5B( https://laion.ai/blog/laion-5b/ )文章外,请引用:
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV, title={Learning Transferable Visual Models From Natural Language Supervision}, author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever}, booktitle={ICML}, year={2021} }
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773, author = {Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig}, title = {OpenCLIP}, month = jul, year = 2021, note = {If you use this software, please cite it as below.}, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5143773}, url = {https://doi.org/10.5281/zenodo.5143773} }
使用下面的代码开始使用该模型。
**TODO**-Hugging Face transformers、OpenCLIP和timm的入门示例