模型:

facebook/vit-msn-base

英文

使用MSN预训练的基础级别Vision Transformer模型

使用MSN方法预训练的Vision Transformer (ViT)模型。该模型在 this repository 中首次由Mahmoud Assran、Mathilde Caron、Ishan Misra、Piotr Bojanowski、Florian Bordes、Pascal Vincent、Armand Joulin、Michael Rabbat、Nicolas Ballas等人介绍,并在 Masked Siamese Networks for Label-Efficient Learning 中进行详细描述。

免责声明:MSN发布团队未为该模型编写模型卡片,因此此模型卡片由Hugging Face团队编写。

模型描述

Vision Transformer (ViT)是一种Transformer编码器模型(类似于BERT)。图像以一系列固定大小的补丁的形式提供给模型。

MSN采用联合嵌入架构,将掩蔽补丁和非掩蔽补丁的原型进行匹配。通过这种设定,他们的方法在低样本和极低样本情况下表现出色。

通过进行预训练,模型可以学习图像的内部表示,然后可以用于提取用于下游任务的特征:例如,如果您有一个带标签的图像数据集,可以通过在预训练的编码器之上放置一个线性层来训练标准分类器。

预期用途和限制

您可以将原始模型用于图像分类等下游任务。查看 model hub 以寻找您感兴趣的不同版本的MSN预训练模型。当您的训练集中只有很少标记样本时,该模型尤其有益。

如何使用

下面是如何使用此骨干编码器的方法:

from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-base")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

对于图像分类的微调,请使用 ViTMSNForImageClassification 类:

from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-base")

...

引用

@article{assran2022masked,
  title={Masked Siamese Networks for Label-Efficient Learning}, 
  author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
  journal={arXiv preprint arXiv:2204.07141},
  year={2022}
}