英文

Data2Vec-Vision(基准大小的模型,仅预训练)

BEiT模型是在ImageNet-1k(120万张图像,1000个类别)上以自监督的方式进行预训练的,图像分辨率为224x224。它在 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 中由Alexei Baevski,Wei-Ning Hsu,Qiantong Xu,Arun Babu,Jiatao Gu,Michael Auli介绍,并在 this repository 中首次发布。

免责声明:发布Facebook团队并没有为这个模型撰写模型卡片,所以这个模型卡片是由Hugging Face团队撰写的。

Pre-Training方法

更多信息,请参阅 official paper

摘要

尽管跨模态的自监督学习的总体思想是相同的,但实际的算法和目标却因为它们是针对单一模态开发而有所不同。为了更接近于通用自监督学习,我们提出了data2vec,一个框架,它可以使用相同的学习方法用于语音、自然语言处理或计算机视觉。其核心思想是在一个自我蒸馏的设置中,使用标准的Transformer架构,通过对输入的掩码视图预测完整输入数据的潜在表示。data2vec不是预测特定模态的目标,例如单词、视觉标记或人类语音的单位,而是预测包含来自整个输入的信息的上下文化潜在表示。对语音识别、图像分类和自然语言理解的主要基准进行的实验证明了与主要方法相比的新的或具有竞争力的性能。

预期用途和限制

您可以使用原始模型进行图像分类。查看 model hub ,以查找您感兴趣的任务上进行微调的版本。

训练数据

BEiT模型在 ImageNet-1k 上进行了预训练,该数据集包含120万张图像和1k个类别。

训练过程

预处理

训练/验证期间图像的预处理的详细信息可以在 here 中找到。

图像被调整大小/重缩放到相同的分辨率(224x224),并在RGB通道上进行规范化,均值为(0.5, 0.5, 0.5),标准差为(0.5, 0.5, 0.5)。

预训练

对于所有与预训练相关的超参数,我们参考 original paper original codebase

评估结果

关于几个图像分类基准的评估结果,请参考原论文的表1。请注意,对于微调,最佳结果是在更高分辨率下获得的。当然,增加模型大小将导致更好的性能。

BibTeX条目和引文信息

@misc{https://doi.org/10.48550/arxiv.2202.03555,
  doi = {10.48550/ARXIV.2202.03555},
  url = {https://arxiv.org/abs/2202.03555},
  author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
  keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}