英文

Data2Vec-Vision(大型模型,在ImageNet-1k上进行了精细调整)

Data2Vec-Vision模型在自监督方式下进行了预训练,并在ImageNet-1k(120万张图片,1000个类别)上进行了精细调整,分辨率为224x224。该模型由Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auli在论文" data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language "中提出,并在" this repository "中首次发布。

免责声明:Facebook团队未为该模型编写模型卡片,因此此模型卡片由Hugging Face团队编写。

预训练方法

详情请参阅" official paper "。

摘要

虽然自监督学习的整体思想在所有模态之间是相同的,但实际算法和目标因单一模态而异。为了更接近通用的自监督学习,我们提出了data2vec框架,该框架可同时用于语音、NLP或计算机视觉。其核心思想是使用标准Transformer架构,在自蒸馏设置中,基于输入的屏蔽视图来预测完整输入数据的潜在表示。Data2Vec不预测特定模态的目标,例如单词、视觉标记或人类语音单位,而是预测包含整个输入信息的上下文化潜在表示。在语音识别、图像分类和自然语言理解的主要基准测试上进行的实验表明,该方法达到了新的最先进或与主流方法相媲美的性能。

预期用途与限制

您可以使用原始模型进行图像分类。请查看" model hub ",以寻找您感兴趣的任务的精调版本。

使用方法

以下是如何使用此模型将COCO 2017数据集中的图像分类为1,000个ImageNet类别之一的示例:

from transformers import BeitFeatureExtractor, Data2VecVisionForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = BeitFeatureExtractor.from_pretrained('facebook/data2vec-vision-large-ft1k')
model = Data2VecVisionForImageClassification.from_pretrained('facebook/data2vec-vision-large-ft1k')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

目前,特征提取器和模型均支持PyTorch。

训练数据

BEiT模型在由120万张图片和1k个类别组成的数据集" ImageNet-1k "上进行了预训练和精细调整。

训练过程

预处理

有关训练/验证期间图片预处理的详细信息,请参阅" here "。

图像被调整大小/缩放到相同的分辨率(224x224),并在RGB通道上使用均值(0.5, 0.5, 0.5)和标准差(0.5, 0.5, 0.5)进行归一化。

预训练

有关所有预训练相关的超参数,请参阅" original paper "和" original codebase "。

评估结果

有关几个图像分类基准测试的评估结果,请参阅原始论文的表1。请注意,为了进行精细调整,在较高分辨率下可以获得最佳结果。当然,增加模型大小将导致更好的性能。

我们在ImageNet1K上评估了该模型,得到的top-1准确率为86.50,而在原始论文中报告的top-1准确率为86.2。如果您想重现我们的评估过程,可以使用" This Colab Notebook "。

BibTeX条目和引用信息

@misc{https://doi.org/10.48550/arxiv.2202.03555,
  doi = {10.48550/ARXIV.2202.03555},
  url = {https://arxiv.org/abs/2202.03555},
  author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
  keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}