模型:
facebook/vit-msn-small
Vision Transformer(ViT)模型使用MSN方法进行预训练。该模型由Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas在论文 Masked Siamese Networks for Label-Efficient Learning 中介绍,并在 this repository 中首次发布。
免责声明:MSN发布团队没有为此模型编写模型卡片,因此此模型卡片由Hugging Face团队编写。
Vision Transformer(ViT)是一个transformer编码器模型(类似BERT)。图像被表示为固定大小的补丁序列。
MSN提出了一种联合嵌入架构,用于将遮蔽补丁的原型与未遮蔽补丁的原型匹配。通过这种设置,他们的方法在低样本和极低样本情况下表现出色。
通过预训练模型,它学习了图像的内部表示,然后可以用来提取对下游任务有用的特征:例如,如果你有一个带有标签的图像数据集,可以通过在预训练编码器的顶部放置一个线性层来训练一个标准分类器。
您可以使用原始模型进行图像分类等下游任务。查看 model hub 以查找您感兴趣的不同版本的MSN预训练模型。当训练集中只有少量标记样本时,该模型特别有益。
这是如何使用此主干编码器的方法:
from transformers import AutoFeatureExtractor, ViTMSNModel import torch from PIL import Image import requests url = "http://images.cocodataset.org/val2017/000000039769.jpg" image = Image.open(requests.get(url, stream=True).raw) feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-small") model = ViTMSNModel.from_pretrained("facebook/vit-msn-small") inputs = feature_extractor(images=image, return_tensors="pt") with torch.no_grad(): outputs = model(**inputs) last_hidden_states = outputs.last_hidden_state
对于图像分类的微调,请使用ViTMSNForImageClassification类:
from transformers import AutoFeatureExtractor, ViTMSNForImageClassification import torch from PIL import Image import requests url = "http://images.cocodataset.org/val2017/000000039769.jpg" image = Image.open(requests.get(url, stream=True).raw) feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-small") model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-small") ...
@article{assran2022masked, title={Masked Siamese Networks for Label-Efficient Learning}, author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas}, journal={arXiv preprint arXiv:2204.07141}, year={2022} }