模型:
microsoft/resnet-34
在分辨率为224x224的ImageNet-1k数据集上进行预训练的ResNet模型。该模型在He等人的论文中被介绍[ Deep Residual Learning for Image Recognition ]。
免责声明:发布ResNet的团队没有为此模型编写模型卡片,因此此模型卡片是由Hugging Face团队编写的。
ResNet(残差网络)是一个卷积神经网络,通过引入残差学习和跳跃连接的概念,实现了更深层次的模型训练。
这是ResNet v1.5,它与原始模型的区别在于需要下采样的瓶颈块中,v1版本在第一个1x1卷积中的步幅(stride)为2,而v1.5版本在3x3卷积中的步幅为2。这一差异使得ResNet50 v1.5稍微更准确(约0.5% top1),但同时也带来了一些性能缺陷(约5% imgs/sec)[ Nvidia ]。
您可以使用原始模型进行图像分类。可以查看 model hub 上的细调版本以适用您感兴趣的任务。
以下是如何使用此模型将COCO 2017数据集中的图像分类为1,000个ImageNet类别之一的方法:
from transformers import AutoFeatureExtractor, ResNetForImageClassification import torch from datasets import load_dataset dataset = load_dataset("huggingface/cats-image") image = dataset["test"]["image"][0] feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/resnet-34") model = ResNetForImageClassification.from_pretrained("microsoft/resnet-34") inputs = feature_extractor(image, return_tensors="pt") with torch.no_grad(): logits = model(**inputs).logits # model predicts one of the 1000 ImageNet classes predicted_label = logits.argmax(-1).item() print(model.config.id2label[predicted_label])
如需更多代码示例,请参阅 documentation 。
@inproceedings{he2016deep, title={Deep residual learning for image recognition}, author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian}, booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition}, pages={770--778}, year={2016} }