模型:

microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft

英文

Swin Transformer v2(基础型号模型)

Swin Transformer v2 模型在 ImageNet-21k 上进行了预训练,并在分辨率为 256x256 的 ImageNet-1k 上进行了微调。它由刘等人在论文中首次提出,并于 this repository 发布。

免责声明:发布 Swin Transformer v2 的团队没有为该模型撰写模型卡片,因此本模型卡片是由 Hugging Face 团队编写的。

模型描述

Swin Transformer 是一种 Vision Transformer 类型模型。它通过在深层中合并图像块(以灰色显示)来构建分层特征图,并且由于仅在每个局部窗口内计算自注意力(以红色显示),因此具有与输入图像大小线性计算复杂度的特点。因此,它既可以作为图像分类任务的通用骨干模型,也可以用于密集识别任务。相比之下,之前的 Vision Transformer 生成单一低分辨率的特征图,并且由于全局自注意力的计算而具有与输入图像大小二次的计算复杂度。

Swin Transformer v2 添加了三个主要改进:1)通过使用余项后归一化方法和余弦注意力相结合来提高训练稳定性;2)使用对数间隔连续位置偏置方法,有效地将在低分辨率图像上预训练的模型转移到具有高分辨率输入的下游任务;3)一种自监督预训练方法 SimMIM,以减少对大量标记图像的需求。

Source

预期用途和限制

您可以使用原始模型进行图像分类。有关您感兴趣任务的微调版本,请参阅 model hub

使用方法

以下是如何使用该模型将 COCO 2017 数据集中的图像分类为 1,000 个 ImageNet 类别之一:

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

有关更多代码示例,请参阅 documentation

BibTeX 条目和引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}