MobileViT + DeepLabV3（超小型模型）

MobileViT模型在512x512分辨率下在PASCAL VOC数据集上进行了预训练。由Sachin Mehta和Mohammad Rastegari于 MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer 年引入，并在 this repository 年首次发布。所使用的许可证是 Apple sample code license 。

免责声明：发布MobileViT的团队没有为此模型编写模型卡片，因此Hugging Face团队编写了本模型卡片。

模型描述

MobileViT是一种轻量级、低延迟的卷积神经网络，它将MobileNetV2风格的层与使用transformer的全局处理来替换卷积中的本地处理的新块结合起来。与ViT（Vision Transformer）一样，图像数据在经过变换器层处理之前会被转换成扁平化的补丁。然后，这些补丁会被“展开”为特征图。这样可以将MobileViT块放置在CNN的任何位置。MobileViT不需要任何位置嵌入。

该存储库中的模型在MobileViT骨干网络上添加了一个用于语义分割的头部。

预期用途和限制

您可以使用原始模型进行语义分割。查看 model hub 以查找您感兴趣的任务的微调版本。

如何使用

以下是如何使用此模型的方法：

from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-xx-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-xx-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)

目前，特征提取器和模型都支持PyTorch。

训练数据

MobileViT + DeepLabV3模型在 ImageNet-1k 上进行了预训练，该数据集由100万张图像和1000个类别组成，然后在 PASCAL VOC2012 数据集上进行了微调。

训练过程

预处理

在推理时，图像会被裁剪为512x512。像素值被归一化到[0, 1]的范围内。图像的像素顺序应为BGR，而非RGB。

预训练

MobileViT网络在8个NVIDIA GPU上从头开始在ImageNet-1k上进行了300个时期的训练，有效批次大小为1024，学习率热身3k步，然后进行余弦退火。还使用了标签平滑的交叉熵损失和L2权重衰减。训练分辨率从160x160到320x320不等，使用多尺度采样。

为了得到DeepLabV3模型，MobileViT在PASCAL VOC数据集上使用了4个NVIDIA A100 GPU进行了微调。

评估结果

Model	PASCAL VOC mIOU	# params	URL
MobileViT-XXS	73.6	1.9 M	1239321
MobileViT-XS	77.1	2.9 M	12310321
MobileViT-S	79.1	6.4 M	12311321

BibTeX引用和引文信息

@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}

作者:

Apple

数据集大小:

21.99 MB