模型:
facebook/data2vec-vision-large
任务:
特征提取许可:
apache-2.0BEiT 模型在 ImageNet-1k(100 万张图像,1000 类)数据集上以自我监督的方式进行了预训练,分辨率为 224x224。该模型由 Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auli 在 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 论文中提出,并在 this repository 中首次发布。
免责声明:Facebook 团队发布了该模型,但并未为该模型编写模型卡片,因此这份模型卡片是由 Hugging Face 团队编写的。
更多信息,请参阅 official paper 。
虽然跨模态的自我监督学习的一般思想是相同的,但实际的算法和目标因为它们是为单一模态开发的而有很大不同。为了使我们更接近通用自监督学习,我们提出了 data2vec,这是一个框架,它对语音、自然语言处理或计算机视觉使用相同的学习方法。核心思想是在自我蒸馏的设置中,使用标准 Transformer 架构,基于输入的屏蔽视图预测完整输入数据的潜在表示。data2vec 不是预测特定模态的目标,如单词、视觉标记或人类语音的单元,其本质上是预测包含来自整个输入的信息的上下文化潜在表示。在语音识别、图像分类和自然语言理解的主要基准测试上的实验结果表明,data2vec 取得了新的技术水平或与主导方法竞争的性能。
您可以使用原始模型进行图像分类。请参阅 model hub ,以查找您感兴趣的任务的微调版本。
BEiT 模型在包含 1.2 百万张图像和 1k 类的数据集 ImageNet-1k 上进行了预训练。
有关在训练/验证过程中图像的预处理的详细信息,请参阅 here 。
图像被调整大小/重缩放为相同的分辨率(224x224),并在 RGB 通道上以平均值(0.5, 0.5, 0.5)和标准偏差(0.5, 0.5, 0.5)进行标准化。
有关所有与预训练相关的超参数,请参考 original paper 和 original codebase 。
有关几个图像分类基准测试的评估结果,请参阅原论文的表 1。请注意,对于微调,最佳结果是以更高的分辨率获得的。当然,增加模型规模将导致更好的性能。
@misc{https://doi.org/10.48550/arxiv.2202.03555, doi = {10.48550/ARXIV.2202.03555}, url = {https://arxiv.org/abs/2202.03555}, author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael}, keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language}, publisher = {arXiv}, year = {2022}, copyright = {arXiv.org perpetual, non-exclusive license} }