使用 OpenCLIP ( https://github.com/mlfoundations/open_clip ) 训练的 CLIP ViT-bigG/14 模型,使用 LAION-5B( https://laion.ai/blog/laion-5b/ )的 LAION-2B 英文子集进行训练。
模型训练由 Mitchell Wortsman 在 stability.ai 集群上完成。
该模型的许可证为 MIT。
正如原始文档( OpenAI CLIP model card )所述,该模型旨在成为研究社区的研究成果。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图像分类。我们还希望它能够用于跨学科研究,研究此类模型的潜在影响。
OpenAI CLIP 论文中提供了关于潜在下游影响的讨论,作为此类分析的一个示例。此外,LAION-5B 博客( https://laion.ai/blog/laion-5b/ )和即将发布的论文还包括与训练数据集相关的其他讨论。
零样本图像分类、图像和文本检索等。
图像分类和其他图像任务微调、线性探测图像分类、图像生成引导和条件控制等。
根据 OpenAI 模型的规定,
目前不支持模型的任何部署用例,无论是商业用途还是非商业用途。除非对特定的、固定的类别分类体系进行了全面的领域内测试,否则也不推荐在受限环境中使用该模型进行图像搜索等未经测试和非约束性的应用。这是因为我们的安全评估表明,尤其在考虑到 CLIP 在不同类别分类体系下的性能变化时,需要进行任务特定的测试。目前,以未经测试和非约束性的方式在任何用途中部署该模型可能具有潜在的危害性。
无论模型的性能如何,总是不应支持监视和人脸识别等领域的使用情况。这是因为目前人工智能在这些任务上的应用可能过早,缺乏测试标准和确保其公平使用的检查机制。
由于该模型并未经过有目的地针对除英语以外的任何语言进行训练或评估,因此其使用范围应限于英语语言用例。
此外,上述声明之外,该模型在训练过程中使用的 LAION-5B 数据集还有其他注意事项,请参阅下文。
该模型是使用 LAION-5B 的 20 亿个样本的英文子集( https://laion.ai/blog/laion-5b/ )进行训练的。还部分在 LAION-A 上进行了微调,LAION-A 是 LAION-2B 的 9 亿个样本,过滤了审美 V2 4.5+ 和 phash 重复项。
重要说明:数据集创建的动机是为了使大规模多模态模型训练和处理未经筛选的、从公开可用的互联网中爬取的大规模数据集的研究和实验民主化。因此,我们建议将数据集用于研究目的。请注意,这个大规模数据集是未经筛选的。要注意的是,数据集的未经筛选性质意味着收集到的链接可能会对人类观看者产生强烈的不适和困扰。因此,请谨慎使用演示链接,并自负风险。可以通过根据安全标签(使用我们构建的经过定制训练的 NSFW 分类器)过滤样本来提取“安全”子集。尽管这极大地降低了在查看时遇到潜在有害内容的几率,但我们不能完全排除安全模式下仍然存在有害内容的可能性,因此警告仍然适用。我们认为将数据集公开提供给广大研究和其他有兴趣的社区将有助于透明地调查与训练大规模模型相关的好处,以及使用关闭的大规模数据集进行工作时可能未报告或未注意到的陷阱和危险。通过这次发布,我们不建议将其用于创建即用型的工业产品,因为我们希望通过此次发布鼓励有关此类大规模模型的一般属性和安全性的基础研究仍在进行中。
关于训练过程的详细说明将很快在 laion.ai 上进行讨论。
使用 LAION CLIP Benchmark suite 中的代码进行评估。
使用 VTAB+(VTAB( https://arxiv.org/abs/1910.04867 )与额外的鲁棒性数据集的组合)进行分类,使用 COCO 和 Flickr 进行检索。
TODO - 更多细节
该模型在 ImageNet-1k 上实现了 80.1 的零样本 top-1 准确率。
初步的基准测试已在更多数据集上进行,很快将在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 上公开。
TODO - 创建仅包含该模型指标的表格。
感谢 stability.ai 提供用于训练此模型的计算资源。
BibTeX:
LAION-5B
@inproceedings{schuhmann2022laionb, title={{LAION}-5B: An open large-scale dataset for training next generation image-text models}, author={Christoph Schuhmann and Romain Beaumont and Richard Vencu and Cade W Gordon and Ross Wightman and Mehdi Cherti and Theo Coombes and Aarush Katta and Clayton Mullis and Mitchell Wortsman and Patrick Schramowski and Srivatsa R Kundurthy and Katherine Crowson and Ludwig Schmidt and Robert Kaczmarczyk and Jenia Jitsev}, booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2022}, url={https://openreview.net/forum?id=M3Y74vmsMcY} }
OpenAI CLIP 论文
@inproceedings{Radford2021LearningTV, title={Learning Transferable Visual Models From Natural Language Supervision}, author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever}, booktitle={ICML}, year={2021} }
OpenCLIP 软件
@software{ilharco_gabriel_2021_5143773, author = {Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig}, title = {OpenCLIP}, month = jul, year = 2021, note = {If you use this software, please cite it as below.}, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5143773}, url = {https://doi.org/10.5281/zenodo.5143773} }
Scaling OpenCLIP 论文
@article{cherti2022reproducible, title={Reproducible scaling laws for contrastive language-image learning}, author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia}, journal={arXiv preprint arXiv:2212.07143}, year={2022} }
使用以下代码开始使用该模型。
** TODO ** - Hugging Face transformers、OpenCLIP 和 timm 的入门代码片段