MAE 预训练的 Vision Transformer (巨大尺寸模型)

MAE 方法使用预训练的 Vision Transformer (ViT) 模型。该模型是由 Kaiming He、Xinlei Chen、Saining Xie、Yanghao Li、Piotr Dollár、Ross Girshick 在论文 Masked Autoencoders Are Scalable Vision Learners 中引入，并于 this repository 首次发布。

免责声明：发布 MAE 方法的团队未为此模型编写模型卡片，因此该模型卡片由 Hugging Face 团队编写。

模型描述

Vision Transformer (ViT) 是一个变形器编码器模型（类似 BERT）。图像以一系列固定大小的补丁序列的形式呈现给模型。

在预训练期间，随机屏蔽了图像补丁的大部分（75%）。首先，使用编码器对视觉补丁进行编码。然后，在屏蔽的补丁位置上添加一个可学习的（共享的）掩码标记。解码器将编码的视觉补丁和掩码标记作为输入，并重构屏蔽位置的原始像素值。

通过预训练模型，它学习了图像的内部表示，可以用于提取对下游任务有用的特征：例如，如果您有一个带有标签图像的数据集，您可以在预训练编码器之上放置一个线性层，从而训练一个标准分类器。

预期用途和限制

您可以将原始模型用于图像分类。请参考 model hub 查找您感兴趣的任务的微调版本。

如何使用

这是如何使用该模型的方法：

from transformers import AutoImageProcessor, ViTMAEForPreTraining
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/vit-mae-huge')
model = ViTMAEForPreTraining.from_pretrained('facebook/vit-mae-huge')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
loss = outputs.loss
mask = outputs.mask
ids_restore = outputs.ids_restore

BibTeX 条目和引用信息

@article{DBLP:journals/corr/abs-2111-06377,
  author    = {Kaiming He and
               Xinlei Chen and
               Saining Xie and
               Yanghao Li and
               Piotr Doll{\'{a}}r and
               Ross B. Girshick},
  title     = {Masked Autoencoders Are Scalable Vision Learners},
  journal   = {CoRR},
  volume    = {abs/2111.06377},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.06377},
  eprinttype = {arXiv},
  eprint    = {2111.06377},
  timestamp = {Tue, 16 Nov 2021 12:12:31 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-06377.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

作者:

Meta AI

数据集大小:

4.9 GB