英文

Swin Transformer(大型模型)

Swin Transformer 模型是在ImageNet-21k上进行预训练的(1400万张图像,21841个类别),分辨率为224x224。它由刘研究团队在发布的论文中首次介绍。

声明:发布 Swin Transformer 的团队未为该模型编写模型卡片,因此此模型卡片是由 Hugging Face 团队编写的。

模型描述

Swin Transformer 是一种视觉 Transformer 类型。它通过在深层中合并图像块(以灰色显示)来构建分层特征图,并且由于仅在每个局部窗口内计算自注意力(以红色显示),其计算复杂度与输入图像大小成线性关系。因此,它可以作为图像分类和密集识别任务的通用主干。相比之下,以前的视觉 Transformer 仅生成单一低分辨率的特征图,并且由于在全局范围内计算自注意力而使计算复杂度与输入图像大小成二次关系。

特定说明:您可以使用原始模型进行图像分类。请参阅相关页面以寻找您感兴趣的任务的微调版本。