英文

ResNet-152 v1.5

ResNet模型在ImageNet-1k上进行了预训练,分辨率为224x224。该模型是由He等人在 Deep Residual Learning for Image Recognition 论文中引入的。

声明:ResNet发布团队没有为该模型编写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。

模型描述

ResNet(残差网络)是一个卷积神经网络,它使残差学习和跳跃连接的概念大行其道,从而能够训练更深层次的模型。

这是ResNet v1.5版本,与原始模型有所不同:在需要下采样的瓶颈块中,v1版本在第一个1x1卷积中有stride = 2,而v1.5版本在3x3卷积中有stride = 2。这个差异使得ResNet50 v1.5的准确性稍高于v1(约0.5% top1),但性能略有下降(约5% imgs/sec) 根据 Nvidia 的说法。

预期用途和限制

您可以使用原始模型进行图像分类。请查看 model hub 以寻找您感兴趣的任务的微调版本。

如何使用

以下是如何使用此模型将COCO 2017数据集中的图像分类为1000个ImageNet类之一的方法:

from transformers import AutoFeatureExtractor, ResNetForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/resnet-152")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-152")

inputs = feature_extractor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# model predicts one of the 1000 ImageNet classes
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

更多的代码示例,请参阅 documentation

BibTeX条目和引用信息

@inproceedings{he2016deep,
  title={Deep residual learning for image recognition},
  author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
  booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
  pages={770--778},
  year={2016}
}