模型:
microsoft/swinv2-tiny-patch4-window8-256
Swin Transformer v2 模型在 ImageNet-1k 数据集上进行了预训练,分辨率为 256x256。它由刘等人在 Swin Transformer V2: Scaling Up Capacity and Resolution 论文中提出,并在 this repository 中首次发布。
免责声明:发布 Swin Transformer v2 的团队没有为该模型撰写模型卡片,因此这个模型卡片由 Hugging Face 团队编写。
Swin Transformer 是一种视觉 Transformer 模型。它通过在更深层的级联特征图中合并图像块(灰色表示)来构建分层特征图,并且由于只在每个局部窗口(红色表示)内计算自注意力,其线性计算复杂度与输入图像大小成比例。因此,它既可以作为图像分类的通用骨干模型,也可以用于密集识别任务。相比之下,以前的视觉 Transformer 仅产生单一低分辨率的特征图,并且由于在全局计算自注意力,其计算复杂度与输入图像大小成平方关系。
Swin Transformer v2 增加了 3 个主要改进:1)通过余项后归一化方法与余弦注意力相结合,提高训练稳定性;2)通过对数间隔连续位置偏差方法,有效地将预训练模型从低分辨率图像转移到具有高分辨率输入的下游任务;3)通过自监督预训练方法 SimMIM,减少对大量标记图像的需求。
您可以使用原始模型进行图像分类。查看 model hub 查找您感兴趣的任务的精调版本。
以下是如何使用此模型将 COCO 2017 数据集中的图像分类为 1,000 个 ImageNet 类别之一:
from transformers import AutoImageProcessor, AutoModelForImageClassification from PIL import Image import requests url = "http://images.cocodataset.org/val2017/000000039769.jpg" image = Image.open(requests.get(url, stream=True).raw) processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256") model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256") inputs = processor(images=image, return_tensors="pt") outputs = model(**inputs) logits = outputs.logits # model predicts one of the 1000 ImageNet classes predicted_class_idx = logits.argmax(-1).item() print("Predicted class:", model.config.id2label[predicted_class_idx])
如需更多代码示例,请参阅 documentation 。
@article{DBLP:journals/corr/abs-2111-09883, author = {Ze Liu and Han Hu and Yutong Lin and Zhuliang Yao and Zhenda Xie and Yixuan Wei and Jia Ning and Yue Cao and Zheng Zhang and Li Dong and Furu Wei and Baining Guo}, title = {Swin Transformer {V2:} Scaling Up Capacity and Resolution}, journal = {CoRR}, volume = {abs/2111.09883}, year = {2021}, url = {https://arxiv.org/abs/2111.09883}, eprinttype = {arXiv}, eprint = {2111.09883}, timestamp = {Thu, 02 Dec 2021 15:54:22 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }