模型:

openai/clip-vit-base-patch16

英文

模型卡片:CLIP

免责声明:模型卡片是根据官方的CLIP存储库进行修改的,可以在 here 找到。

模型详细信息

CLIP模型是OpenAI的研究人员开发的,旨在了解在计算机视觉任务中什么因素有助于鲁棒性。该模型还开发了测试模型以零样本方式广泛应用于任意图像分类任务的能力。它不是为了一般的模型部署而开发的 - 要部署像CLIP这样的模型,研究人员首先需要仔细研究其在特定上下文中的能力。

模型日期

2021年1月

模型类型

基础模型使用ViT-B/16变换器架构作为图像编码器,并使用遮蔽的自注意力变换器作为文本编码器。这些编码器通过对比损失函数来最大化(图像,文本)对的相似性。

原始实现有两个变种:一个使用ResNet图像编码器,另一个使用Vision Transformer。这个存储库使用Vision Transformer变种。

文档

与Transformers一起使用

from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch16")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch16")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

模型应用

预期用途

该模型旨在成为研究社区的研究成果。我们希望这个模型能让研究人员更好地理解和探索零样本、任意图像分类的能力。我们还希望它能用于这种模型潜在影响的跨学科研究 - CLIP论文包括对潜在下游影响的讨论,以提供这种分析的示例。

主要预期用途

这些模型的主要预期用户是AI研究人员。我们主要认为这个模型将被研究人员用于更好地理解计算机视觉模型的鲁棒性、泛化能力和其他能力、偏见和限制。

超出范围的用例

目前超出范围的用例包括模型的任何部署用例 - 无论是商业还是非商业的。除非对模型进行了特定领域的彻底测试并有一个特定的固定类别分类法,否则也不建议在受限环境下使用诸如图像搜索之类的非部署用例。这是因为我们的安全评估表明,特定任务的测试尤其重要,特别是考虑到CLIP在不同类别分类法下的性能的变化。这使得对模型在任何用例中的未经测试和无约束部署目前可能具有潜在的危害性。无论模型的性能如何,始终不建议将监控和人脸识别等用例作为超出范围的用例。这是因为当前在这些任务中使用人工智能可能过早,缺乏测试规范和确保其公平使用的检查。由于该模型没有经过专门的培训或评估其他语言,因此其使用应限于英语语言的用例。

数据

该模型是使用公开可用的图像-标题数据进行训练的。这是通过抓取少数网站和使用常用的现有图像数据集(如 YFCC100M )的组合来实现的。数据的大部分来自我们对互联网的抓取。这意味着数据更具代表性的是与互联网关联最紧密的人和社会,这些人和社会倾向于倾向于更发达的国家和年轻的男性用户。

数据任务说明

我们构建这个数据集的目标是为了在计算机视觉任务中测试其鲁棒性和泛化能力。因此,重点是从不同的公共可用互联网数据源中收集大量数据。数据的收集基本上是以非干预的方式进行的。但是,我们只抓取了有反对过度暴力和成人内容的政策的网站,并允许我们过滤掉此类内容。我们不打算将此数据集用作任何商业或部署模型的基础,并且不会发布数据集。

性能和限制

性能

我们已经在各种计算机视觉数据集上对CLIP的性能进行了广泛的基准测试,包括OCR到纹理识别到细粒度分类。论文描述了模型在以下数据集上的性能:

  • Food101
  • CIFAR10
  • CIFAR100
  • Birdsnap
  • SUN397
  • Stanford Cars
  • FGVC Aircraft
  • VOC2007
  • DTD
  • 俄克拉荷马州立大学IT宠物数据集
  • Caltech101
  • Flowers102
  • MNIST
  • SVHN
  • IIIT5K
  • 恶意模因
  • SST-2
  • UCF101
  • Kinetics700
  • Country211
  • CLEVR Counting
  • KITTI Distance
  • STL-10
  • RareAct
  • Flickr30
  • MSCOCO
  • ImageNet
  • ImageNet-A
  • ImageNet-R
  • ImageNet Sketch
  • ObjectNet (ImageNet重叠)
  • Youtube-BB
  • ImageNet-Vid

限制

CLIP及其分析有许多限制。CLIP目前在某些任务上仍存在问题,例如细粒度分类和对象计数。CLIP在公平性和偏见方面也存在问题,我们在论文中讨论了这些问题,并在下一节中简要介绍了。此外,我们测试CLIP的方法也有一个重要的限制 - 在许多情况下,我们使用线性探测来评估CLIP的性能,而有证据表明线性探测可能低估了模型的性能。

偏见和公平性

我们发现CLIP的性能 - 以及其显示的特定偏见 - 可以显著取决于类别的设计和选择包含和排除哪些类别。我们通过将来自 Fairface 的人物图像分类为与犯罪相关的类别和非人类动物类别,来测试CLIP中某些种类的贬损风险。我们发现在种族和性别方面存在重大差异。此外,我们发现这些差异可能会因类别的构建方式而改变。 (详细信息在论文的广泛影响部分中记录)。为了评估模型在不同人口统计学数据上的性能并评估性别、种族和年龄分类的质量,我们使用了Fairface数据集对CLIP的性能进行了测试(我们默认使用Fairface数据集中构建的种族类别)。对于性别分类,所有族裔的准确率均超过96%,‘中东’的准确率最高(98.4%),‘白人’的准确率最低(96.5%)。此外,CLIP在种族分类方面的平均准确率约为93%,年龄分类方面约为63%。我们对性别、种族和年龄分类以及贬损伤害的评估仅用于评估模型在人群中的性能,并揭示潜在风险,并不意味着对此类任务的认可/热衷。

反馈

模型相关问题或意见反馈请至

请使用 this Google Form