模型:
laion/CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k
使用LAION-5B数据集在OpenCLIP上对CLIP ViT-H/14冻结的xlm roberta large模型进行训练。
该模型由Romain Beaumont在 stability.ai 集群上进行训练。
零样本图像分类,图像和文本检索等。
图像分类和其他图像任务微调,线性探测图像分类,图像生成引导和条件设置等。
该模型使用完整的LAION-5B数据集进行训练。
使用样本规模为13B的laion5B数据集,批大小为90k进行训练,详见 https://wandb.ai/rom1504/open-clip/reports/xlm-roberta-large-unfrozen-vit-h-14-frozen--VmlldzoyOTc3ODY3 。
模型在视觉方面是H/14,在文本方面使用xlm roberta large进行预训练。
H/14模型从 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K 初始化,并在训练过程中保持冻结。
使用 LAION CLIP Benchmark suite 中的代码进行评估。
使用VTAB+(VTAB( https://arxiv.org/abs/1910.04867 )与其他鲁棒性数据集的组合)进行分类,使用COCO和Flickr进行检索。
该模型在imagenet 1k上达到77.0%的准确率(对比英文H/14的78%)。
在使用翻译提示进行imagenet的零样本分类时,该模型的表现如下:
该模型在英文和其他语言上均取得了良好的结果。
感谢 stability.ai 提供的计算资源用于训练该模型。
BibTeX:
除了即将推出的LAION-5B论文外,请引用:
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV, title={Learning Transferable Visual Models From Natural Language Supervision}, author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever}, booktitle={ICML}, year={2021} }
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773, author = {Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig}, title = {OpenCLIP}, month = jul, year = 2021, note = {If you use this software, please cite it as below.}, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5143773}, url = {https://doi.org/10.5281/zenodo.5143773} }