模型:
microsoft/beit-base-finetuned-ade-640-640
BEiT模型在ImageNet-21k(1400万图片,21841个类别)上以自监督的方式进行预训练,分辨率为224x224,并在ADE20k上以640x640的分辨率进行了调优(一个重要的图像语义分割基准)。该模型由鲍航博、董立和魏复明在《一种新的图像分割模型》的论文中首次发布。
注意:BEiT团队尚未为此模型撰写模型卡,所以本模型卡是由Hugging Face团队编写的。
BEiT模型是一种视觉Transformer(ViT),它是一种变形器编码器模型(类似于BERT)。与原始的ViT模型不同,BEiT模型以自监督的方式在一个大型图像集合ImageNet-21k上进行预训练,分辨率为224x224像素。模型的预训练目标是基于OpenAI的DALL-E的VQ-VAE的编码器中的掩码路径预测视觉标记。接下来,模型以监督的方式在ImageNet上进行了微调(也称为ILSVRC2012),该数据集包含100万张图片和1000个类别,同样以224x224的分辨率。
图像以固定尺寸的补丁序列(16x16的分辨率)呈现给模型,该序列经过线性嵌入。与原始的ViT模型相反,BEiT模型使用相对位置嵌入(类似于T5),而不是绝对位置嵌入,并且通过对补丁的最终隐藏状态进行平均池化来执行图像分类,而不是在最终隐藏状态的[CLS]标记上放置线性层。
通过对模型进行预训练,它学习了一种图像的内部表示,这可以用于提取对下游任务有用的特征:对于语义分割,可以只需在<模型链接>中添加一个可用的解码头之一,并以监督方式在带注释的图像上微调模型。这就是作者所做的:他们使用一个UperHead分割解码头来微调BEiT模型,从而在ADE20k和CityScapes等重要基准上获得SOTA结果。
您可以使用原始模型进行图像的语义分割。请参阅链接处有关您感兴趣的任务的微调版本。
以下是使用此模型进行语义分割的方法:
目前,特征提取器和模型都支持PyTorch。
该BEiT模型在包含1400万张图片和21k个类别的数据集上进行了预训练,并在包含数千张注释图片和150个类别的数据集上进行了微调。
有关训练/验证期间图像预处理的确切细节,请参见链接。
图像被裁剪和填充到相同的分辨率(640x640),并根据ImageNet的均值和标准差进行RGB通道的归一化。
有关所有与预训练相关的超参数,请参阅原始论文的第15页。
有关几个图像分类基准的评估结果,请参阅原始论文的表1和表2。请注意,对于微调,最佳结果是在更高的分辨率(384x384)下获得的。当然,增加模型大小将获得更好的性能。