模型:
microsoft/swinv2-small-patch4-window8-256
Swin Transformer v2模型在ImageNet-1k上以256x256的分辨率进行了预训练。它是由Liu等人在 Swin Transformer V2: Scaling Up Capacity and Resolution 论文中提出的,并于 this repository 首次发布。
免责声明:发布Swin Transformer v2的团队未为此模型编写模型卡片,因此此模型卡片由Hugging Face团队撰写。
Swin Transformer是一种Vision Transformer类型。它通过合并更深层次中的图像块(显示为灰色)构建分层特征映射,并且由于仅在每个局部窗口(显示为红色)内计算自注意力,它具有与输入图像大小线性计算复杂性。因此,它既可用作图像分类的通用骨干,也可用于密集识别任务。相比之下,之前的Vision Transformers只生成单一低分辨率的特征映射,并且由于全局自注意力的计算,其计算复杂性与输入图像大小呈二次关系。
Swin Transformer v2添加了3个主要改进:1)将残差后规范化方法与余弦注意力相结合,以提高训练稳定性;2)采用对数间隔连续位置偏置方法,有效地将使用低分辨率图像进行预训练的模型转移到具有高分辨率输入的下游任务;3)采用自监督预训练方法SimMIM,以减少对大量标记图像的需求。
您可以将原始模型用于图像分类。请参阅 model hub 以查找您感兴趣的任务的微调版本。
以下是使用此模型将COCO 2017数据集中的图像分类为1000个ImageNet类别之一的方法:
from transformers import AutoImageProcessor, AutoModelForImageClassification from PIL import Image import requests url = "http://images.cocodataset.org/val2017/000000039769.jpg" image = Image.open(requests.get(url, stream=True).raw) processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-small-patch4-window8-256") model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-small-patch4-window8-256") inputs = processor(images=image, return_tensors="pt") outputs = model(**inputs) logits = outputs.logits # model predicts one of the 1000 ImageNet classes predicted_class_idx = logits.argmax(-1).item() print("Predicted class:", model.config.id2label[predicted_class_idx])
更多示例代码,请参阅 documentation 。
@article{DBLP:journals/corr/abs-2111-09883, author = {Ze Liu and Han Hu and Yutong Lin and Zhuliang Yao and Zhenda Xie and Yixuan Wei and Jia Ning and Yue Cao and Zheng Zhang and Li Dong and Furu Wei and Baining Guo}, title = {Swin Transformer {V2:} Scaling Up Capacity and Resolution}, journal = {CoRR}, volume = {abs/2111.09883}, year = {2021}, url = {https://arxiv.org/abs/2111.09883}, eprinttype = {arXiv}, eprint = {2111.09883}, timestamp = {Thu, 02 Dec 2021 15:54:22 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }