英文

Big Transfer (BiT)

BiT模型是由Alexander Kolesnikov、Lucas Beyer、Xiaohua Zhai、Joan Puigcerver、Jessica Yung、Sylvain Gelly、Neil Houlsby于 Big Transfer (BiT): General Visual Representation Learning 提出的。BiT是一种用于扩大预训练ResNet类似架构(具体而言是ResNetv2)的方法,该方法显著提高了迁移学习的效果。

免责声明:发布ResNet的团队没有为该模型撰写模型卡片,因此该模型卡片是由Hugging Face团队编写的。

模型描述

论文中的摘要如下:

将预训练表示进行迁移可以提高样本效率,并简化训练视觉深度神经网络时的超参数调整。我们重新审视了在大型监督数据集上进行预训练并在目标任务上进行微调的范式。我们扩大了预训练规模,并提出了一个简单的方法,称之为Big Transfer(BiT)。通过组合一些精选的组件,并使用简单的启发式方法进行迁移,我们在20多个数据集上取得了强大的性能。BiT在各种不同数据范围上表现良好,从每类1个示例到总共100万个示例。BiT在ILSVRC-2012上获得了87.5%的top-1精度,在CIFAR-10上获得了99.4%的精度,在19个任务的Visual Task Adaptation Benchmark(VTAB)上获得了76.3%的精度。对于小型数据集,BiT在每类10个示例的ILSVRC-2012上达到了76.8%的精度,并在每类10个示例的CIFAR-10上达到了97.0%的精度。我们对导致高迁移性能的主要组件进行了详细分析。

预期用途和限制

您可以使用原始模型进行图像分类。请查看 model hub 以查找您感兴趣的任务的微调版本。

如何使用

以下是使用此模型将COCO 2017数据集的图像分类为1,000个ImageNet类别的方法:

from transformers import BitImageProcessor, BitForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

feature_extractor = BitImageProcessor.from_pretrained("google/bit-50")
model = BitForImageClassification.from_pretrained("google/bit-50")

inputs = feature_extractor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# model predicts one of the 1000 ImageNet classes
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label
>>> tabby, tabby cat

有关更多代码示例,请参阅 documentation

BibTeX条目和引文信息

@misc{https://doi.org/10.48550/arxiv.1912.11370,
  doi = {10.48550/ARXIV.1912.11370},
  
  url = {https://arxiv.org/abs/1912.11370},
  
  author = {Kolesnikov, Alexander and Beyer, Lucas and Zhai, Xiaohua and Puigcerver, Joan and Yung, Jessica and Gelly, Sylvain and Houlsby, Neil},
  
  keywords = {Computer Vision and Pattern Recognition (cs.CV), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {Big Transfer (BiT): General Visual Representation Learning},
  
  publisher = {arXiv},
  
  year = {2019},
  
  copyright = {arXiv.org perpetual, non-exclusive license}
}