模型:
laion/CLIP-ViT-g-14-laion2B-s12B-b42K
这是一个使用 LAION-5B 数据集中的 LAION-2B 英语子集( https://laion.ai/blog/laion-5b/ )和 OpenCLIP( https://github.com/mlfoundations/open_clip )训练的 CLIP ViT-g/14 模型。
模型训练由 Romain Beaumont 在 stability.ai 集群上完成。
正如原始 OpenAI CLIP model card 中所述,该模型旨在作为研究社区的研究产出。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图片分类的能力。我们还希望它能够用于对此类模型潜在影响的跨学科研究。
OpenAI CLIP 论文中对潜在下游影响的讨论提供了一个分析示例。此外,LAION-5B 博客( https://laion.ai/blog/laion-5b/ )和即将发布的论文进一步讨论了与训练数据集有关的问题。
零样本图片分类、图像和文本检索等。
图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和条件等。
和 OpenAI 模型一样,目前不支持模型的任何部署用例,无论是商业用途还是非商业用途。 对于特定领域的图像搜索,如果没有对特定、固定的类别进行全面的领域测试,也不建议使用。这是因为我们的安全评估表明,由于 CLIP 在不同的类别分类学中表现具有变异性,因此对任务进行特定测试的需求高,这使得目前对模型在任何用例中进行未测试和无约束的部署可能具有潜在的危害性。
无论模型性能如何,与监视和人脸识别相关的某些用例始终超出范围。这是因为当前使用人工智能进行此类任务可能是过早的,鉴于缺乏测试规范和确保其公平使用的检查机制。
由于模型没有经过特意的其他语言(英语以外)的训练和评估,其使用应该仅限于英语语言使用案例。
除上述注意事项外,用于训练这些模型的 LAION-5B 数据集还有其他考虑因素,请参阅下文。
该模型使用 LAION-5B 的 20 亿个样本的英语子集进行训练( https://laion.ai/blog/laion-5b/ )。
重要提示:该数据集的创建动机是为了推动大规模多模态模型训练和处理从公开可用的互联网抓取的非筛选大规模数据集的研究和实验。因此,我们建议将数据集用于研究目的。请注意,这个大规模的数据集是非筛选的。请注意,数据集的非筛选性质意味着收集到的链接可能会导致对人类观众来说令人非常不适和困扰的内容。因此,请谨慎使用演示链接,并自行承担风险。可以通过根据安全标签(使用我们构建的自定义训练的 NSFW 分类器)过滤样本来提取“安全”子集。虽然这在查看时可以大大减少遇到潜在有害内容的机会,但我们无法完全排除安全模式下仍然存在有害内容的可能性,因此警告也适用于安全模式。我们认为,向广泛的研究和其他感兴趣的社区提供数据集将允许对大规模模型的利益进行透明的调查,以及在使用保密的大型数据集进行工作时可能不报告或未被注意到的陷阱和危险。通过公开提供数据集,我们不建议将其用于创建现成的工业产品,因为基于此发布我们希望鼓励的大规模模型的一般性能质和安全性的基础研究仍在进行中。
请参阅 training notes 和 wandb logs 。
使用 LAION CLIP Benchmark suite 中的代码进行评估。
分类方面使用 VTAB+ 进行测试(VTAB 结合了 https://arxiv.org/abs/1910.04867 和额外的鲁棒性数据集),检索方面使用 COCO 和 Flickr。
待办 - 更多细节
该模型在 ImageNet-1k 上实现了 76.6% 的零样本 top-1 准确率。
已针对更广泛的数据集进行了一轮初步评估,目前可以在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 上查看。
待办 - 创建仅适用于该模型的指标表。
感谢 stability.ai 提供的计算资源用于训练本模型。
BibTeX:
除即将发布的 LAION-5B 论文外,请引用:
OpenAI 的 CLIP 论文
@inproceedings{Radford2021LearningTV, title={Learning Transferable Visual Models From Natural Language Supervision}, author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever}, booktitle={ICML}, year={2021} }
OpenCLIP 软件
@software{ilharco_gabriel_2021_5143773, author = {Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig}, title = {OpenCLIP}, month = jul, year = 2021, note = {If you use this software, please cite it as below.}, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5143773}, url = {https://doi.org/10.5281/zenodo.5143773} }
使用下面的代码开始使用该模型。
** 待办 ** - Hugging Face transformers、OpenCLIP 和 timm 的开始使用代码片段