英文

MobileViT(特小型模型)

MobileViT模型是在256x256分辨率下在ImageNet-1k上进行预训练的。该模型是由Sachin Mehta和Mohammad Rastegari于 MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer 年引入的,并于 this repository 年首次发布。使用的许可证是 Apple sample code license

声明:发布MobileViT的团队没有为该模型编写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。

模型描述

MobileViT是一个轻量级、低延迟的卷积神经网络,它将MobileNetV2风格的层与使用transformers进行全局处理以替换卷积中的局部处理的新块相结合。与ViT(Vision Transformer)一样,图像数据在被transformer层处理之前被转换为扁平化的补丁。之后,这些补丁被“展开”回特征图中。这使得MobileViT块可以放置在CNN的任何位置。MobileViT不需要任何位置嵌入。

用途和限制

您可以使用原始模型进行图像分类。请参阅 model hub 以查找您感兴趣的任务的微调版本。

如何使用

以下是使用此模型将COCO 2017数据集中的图像分类为1,000个ImageNet类之一的方法:

from transformers import MobileViTFeatureExtractor, MobileViTForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/mobilevit-xx-small")
model = MobileViTForImageClassification.from_pretrained("apple/mobilevit-xx-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits

# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

目前,特征提取器和模型都支持PyTorch。

训练数据

MobileViT模型是在 ImageNet-1k 上进行的预训练,该数据集由1百万张图像和1,000个类组成。

训练过程

预处理

训练仅需要基本的数据增强,即随机调整大小的裁剪和水平翻转。

为了在不需要微调的情况下学习多尺度表示,训练过程中使用了多尺度采样器,从中随机选择图像尺寸:(160, 160)、(192, 192)、(256, 256)、(288, 288)、(320, 320)。

在推断时,图像被调整大小/缩放到相同的分辨率(288x288),并在256x256进行中心裁剪。

像素被归一化到[0, 1]范围。图像应以BGR像素顺序而不是RGB顺序提供。

预训练

MobileViT网络在8个NVIDIA GPU上从头开始对ImageNet-1k进行了300个epoch的训练,有效批量大小为1024,学习率预热为3k步,然后进行余弦退火。还使用了标签平滑的交叉熵损失和L2权重衰减。训练分辨率从160x160到320x320,使用多尺度采样。

评估结果

Model ImageNet top-1 accuracy ImageNet top-5 accuracy # params URL
MobileViT-XXS 69.0 88.9 1.3 M 1237321
MobileViT-XS 74.8 92.3 2.3 M 1238321
MobileViT-S 78.4 94.1 5.6 M 1239321

BibTeX条目和引用信息

@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}