模型:

google/owlvit-base-patch32

英文

模型卡片:OWL-ViT

模型详情

OWL-ViT(全名为开放世界定位的视觉Transformer)是由Matthias Minderer、Alexey Gritsenko、Austin Stone、Maxim Neumann、Dirk Weissenborn、Alexey Dosovitskiy、Aravindh Mahendran、Anurag Arnab、Mostafa Dehghani、Zhuoran Shen、Xiao Wang、Xiaohua Zhai、Thomas Kipf和Neil Houlsby于2023年提出的。OWL-ViT是一种零样本条件下的文本相关目标检测模型,可用于对图像进行单个或多个文本查询。

OWL-ViT使用CLIP作为其多模态骨干网络,其中使用类似ViT的Transformer来获取视觉特征,并使用因果语言模型来获取文本特征。为了使用CLIP进行检测,OWL-ViT移除了视觉模型的最后一个标记汇聚层,并将每个Transformer输出标记附加了一个轻量级的分类和框头部。通过用文本模型获取的类名嵌入替换固定的分类层权重,实现了开放词汇的分类。作者们首先从头开始训练CLIP,并使用二分匹配损失在标准检测数据集上端到端地对其进行微调,包括分类和框头部。可以使用一个或多个文本查询来进行零样本文本相关目标检测。

模型日期

2022年5月

模型类型

该模型使用CLIP骨干网络,其包含ViT-B/32 Transformer架构作为图像编码器,并使用遮蔽自注意力Transformer作为文本编码器。这些编码器通过对比损失进行训练,以最大化(图像、文本)对的相似性。CLIP骨干网络是从头开始训练的,并且与对象检测目标一起进行微调,包括框和类别预测头。

文件

与Transformer一起使用

import requests
from PIL import Image
import torch

from transformers import OwlViTProcessor, OwlViTForObjectDetection

processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to COCO API
results = processor.post_process(outputs=outputs, target_sizes=target_sizes)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# Print detected objects and rescaled box coordinates
score_threshold = 0.1
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    if score >= score_threshold:
        print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

模型用途

预期用途

该模型旨在成为研究社区的研究输出。我们希望这个模型能够帮助研究人员更好地理解和探索零样本的文本相关目标检测,同时希望它能够用于跨学科研究,特别是在常常需要识别标签在训练中不可用的对象的领域。

这些模型的主要使用者是AI研究人员。

我们主要想象模型将被研究人员用于更好地理解计算机视觉模型的鲁棒性、泛化性和其他能力、偏见和约束。

数据

该模型的CLIP骨干网络是在公开可用的图像描述数据上进行训练的。通过组合抓取一些网站和使用常用的现有图像数据集(如 YFCC100M )来完成这一训练。数据的很大一部分来自我们对互联网的抓取。这意味着数据更代表与互联网连接最密切的人们和社会。OWL-ViT的预测头部以及CLIP骨干网络是在公开可用的对象检测数据集(如 COCO OpenImages )上进行微调的。

BibTeX条目和引用信息

@article{minderer2022simple,
  title={Simple Open-Vocabulary Object Detection with Vision Transformers},
  author={Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby},
  journal={arXiv preprint arXiv:2205.06230},
  year={2022},
}