英文

YOLOS(小型)模型

原始的YOLOS模型在COCO 2017目标检测数据集(118,000张注释图像)上进行了微调。该模型由Fang等人在 You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection 论文中介绍,并于 this repository 首次发布。此模型还在来自Kaggle的 license plate dataset 数据集上进行了进一步微调。该数据集包含735张注释为"vehicle"和"license-plate"的图像。该模型在单个GPU上使用Google Colab训练了200个epoch。

模型描述

YOLOS是使用DETR loss进行训练的Vision Transformer (ViT)。尽管其简单性,基本规模的YOLOS模型在COCO 2017验证集上能够达到42 AP(与DETR和更复杂的框架如Faster R-CNN相似)。

预期用途和限制

您可以将原始模型用于目标检测。查看 model hub 以查找所有可用的YOLOS模型。

如何使用

以下是如何使用此模型的方法:

from transformers import YolosFeatureExtractor, YolosForObjectDetection
from PIL import Image
import requests

url = 'https://drive.google.com/uc?id=1p9wJIqRz3W50e2f_A0D8ftla8hoXz4T5'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = YolosFeatureExtractor.from_pretrained('nickmuchi/yolos-small-rego-plates-detection')
model = YolosForObjectDetection.from_pretrained('nickmuchi/yolos-small-rego-plates-detection')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)

# model predicts bounding boxes and corresponding face mask detection classes
logits = outputs.logits
bboxes = outputs.pred_boxes

目前,特征提取器和模型都支持PyTorch。

训练数据

YOLOS模型在 ImageNet-1k 上进行了预训练,并在 COCO 2017 object detection 上进行了微调,其中包含118,000张用于训练/验证的注释图像。

训练

该模型在 license plate dataset 上进行了200个epoch的微调。

评估结果

该模型达到了47.9的AP(平均精度)。

正在累积评估结果...

IoU指标:bbox

Metrics Metric Parameter Location Dets Value
Average Precision (AP) @[ IoU=0.50:0.95 area= all maxDets=100 ] 0.479
Average Precision (AP) @[ IoU=0.50 area= all maxDets=100 ] 0.752
Average Precision (AP) @[ IoU=0.75 area= all maxDets=100 ] 0.555
Average Precision (AP) @[ IoU=0.50:0.95 area= small maxDets=100 ] 0.147
Average Precision (AP) @[ IoU=0.50:0.95 area=medium maxDets=100 ] 0.420
Average Precision (AP) @[ IoU=0.50:0.95 area= large maxDets=100 ] 0.804
Average Recall (AR) @[ IoU=0.50:0.95 area= all maxDets= 1 ] 0.437
Average Recall (AR) @[ IoU=0.50:0.95 area= all maxDets= 10 ] 0.641
Average Recall (AR) @[ IoU=0.50:0.95 area= all maxDets=100 ] 0.676
Average Recall (AR) @[ IoU=0.50:0.95 area= small maxDets=100 ] 0.268
Average Recall (AR) @[ IoU=0.50:0.95 area=medium maxDets=100 ] 0.641
Average Recall (AR) @[ IoU=0.50:0.95 area= large maxDets=100 ] 0.870