英文

Data2Vec-Vision(基于base大小的模型,在ImageNet-1k上进行微调)

BEiT模型在224x224的分辨率下以自监督的方式进行预训练,并在ImageNet-1k上进行了微调(120万张图片,1000个类别)。它由Alexei Baevski,Wei-Ning Hsu,Qiantong Xu,Arun Babu,Jiatao Gu,Michael Auli在论文 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 中提出,并在 this repository 中首次发布。

免责声明:Facebook团队发布的模型没有编写模型卡片,因此本模型卡片由Hugging Face团队编写。

预训练方法

更多信息,请参阅 official paper

摘要

尽管自监督学习的总体思想在不同的模态之间是相同的,但实际的算法和目标因为它们是针对单一模态开发的而存在很大的差异。为了让我们更接近于通用的自监督学习,我们提出了data2vec,这是一个框架,它对语音、自然语言处理或计算机视觉使用相同的学习方法。其核心思想是使用标准的Transformer架构,在自蒸馏的设置下,基于输入的遮罩视图预测完整输入数据的潜在表示。data2vec不是预测局部的、特定于模态的目标,如单词、视觉标记或人类语音单位,而是预测包含来自整个输入的信息的上下文化的潜在表示。在语音识别、图像分类和自然语言理解的主要基准上的实验证明了与主流方法相比的新的最先进或有竞争力的性能。

预期用途和限制

您可以使用原始模型进行图像分类。请查看 model hub ,以寻找您感兴趣的任务的微调版本。

使用方法

以下是如何使用该模型将COCO 2017数据集中的图像分类为ImageNet的1000个类别之一的示例:

from transformers import BeitFeatureExtractor, Data2VecVisionForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = BeitFeatureExtractor.from_pretrained('facebook/data2vec-vision-base-ft1k')
model = Data2VecVisionForImageClassification.from_pretrained('facebook/data2vec-vision-base-ft1k')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

目前,特征提取器和模型都支持PyTorch。

训练数据

BEiT模型是在包含120万张图像和1k类别的 ImageNet-1k 上进行预训练和微调的。

训练过程

预处理

有关训练/验证期间图像预处理的确切细节,请参见 here

图像被调整大小/缩放到相同的分辨率(224x224),并在RGB通道上使用均值(0.5, 0.5, 0.5)和标准差(0.5, 0.5, 0.5)进行归一化。

预训练

有关所有与预训练相关的超参数,请参阅 original paper original codebase

评估结果

有关几个图像分类基准测试的评估结果,请参阅原始论文的表1。请注意,对于微调,增加分辨率会获得最佳结果。当然,增加模型的大小将导致更好的性能。

我们在ImageNet1K上对模型进行了评估,得到的top-1准确率为83.97%,而原始论文中报告的top-1准确率为84.2%。如果您想重现我们的评估过程,可以使用 This Colab Notebook

BibTeX条目和引文信息

@misc{https://doi.org/10.48550/arxiv.2202.03555,
  doi = {10.48550/ARXIV.2202.03555},
  url = {https://arxiv.org/abs/2202.03555},
  author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
  keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}