模型:
microsoft/swinv2-base-patch4-window16-256
Swin Transformer v2模型在ImageNet-1k数据集上以256x256的分辨率进行了预训练。该模型是由刘等人在 Swin Transformer V2: Scaling Up Capacity and Resolution 论文中提出并于 this repository 首次发布的。
免责声明:发布Swin Transformer v2的团队并未为该模型编写模型卡片,因此此模型卡片由Hugging Face团队编写。
Swin Transformer是一种Vision Transformer模型。它通过在更深层将图像补丁(以灰色显示)进行合并构建分层特征图,并且由于自注意力仅在每个局部窗口(以红色显示)内计算,使得计算复杂度线性关于输入图像大小。因此,它既可以用作图像分类的通用主干,也可以用于密集识别任务。相比之下,之前的视觉Transformer生成单一低分辨率的特征图,并且由于全局自注意力的计算,计算复杂度与输入图像大小呈二次关系。
Swin Transformer v2增加了3个主要改进:1)结合余项后归一化方法和余弦注意力以提高训练稳定性;2)采用对数间隔连续位置偏差方法,有效地将使用低分辨率图像进行预训练的模型传递到具有高分辨率输入的下游任务;3)自监督预训练方法SimMIM,减少了大量标注图像的需求。
您可以使用原始模型进行图像分类。请查阅 model hub 以寻找您感兴趣的任务的精调版本。
以下是如何使用该模型将COCO 2017数据集中的图像分类为ImageNet的1,000个类别的示例:
from transformers import AutoImageProcessor, AutoModelForImageClassification from PIL import Image import requests url = "http://images.cocodataset.org/val2017/000000039769.jpg" image = Image.open(requests.get(url, stream=True).raw) processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-base-patch4-window16-256") model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-base-patch4-window16-256") inputs = processor(images=image, return_tensors="pt") outputs = model(**inputs) logits = outputs.logits # model predicts one of the 1000 ImageNet classes predicted_class_idx = logits.argmax(-1).item() print("Predicted class:", model.config.id2label[predicted_class_idx])
有关更多代码示例,请参阅 documentation 。
@article{DBLP:journals/corr/abs-2111-09883, author = {Ze Liu and Han Hu and Yutong Lin and Zhuliang Yao and Zhenda Xie and Yixuan Wei and Jia Ning and Yue Cao and Zheng Zhang and Li Dong and Furu Wei and Baining Guo}, title = {Swin Transformer {V2:} Scaling Up Capacity and Resolution}, journal = {CoRR}, volume = {abs/2111.09883}, year = {2021}, url = {https://arxiv.org/abs/2111.09883}, eprinttype = {arXiv}, eprint = {2111.09883}, timestamp = {Thu, 02 Dec 2021 15:54:22 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }