数据集:

cppe-5

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2112.09569
英文

CPPE - 5 数据集卡片

数据集概述

CPPE - 5(医用个人防护设备)是一个具有挑战性的新数据集,旨在研究医用个人防护设备的下级分类,而这在其他以广泛类别为重点的流行数据集中是不可能的。

这个数据集的一些特点包括:

  • 高质量的图像和注释(每个图像平均4.6个边界框)
  • 真实场景图像,不同于目前任何其他类似数据集
  • 大多数非图标图像(便于部署到现实环境中)

支持的任务和排行榜

  • 目标检测:该数据集可用于训练目标检测模型。此任务有一个活动的排行榜,可以在 https://paperswithcode.com/sota/object-detection-on-cppe-5 找到。该任务的评估指标采用了COCO检测评估标准,包括在不同尺度上,从0.50到0.95的IoU阈值范围内的平均准确率(AP)。

语言

英语

数据集结构

数据实例

一个数据点包括一张图像及其对象注释。

{
  'image_id': 15,
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=943x663 at 0x2373B065C18>,
  'width': 943,
  'height': 663,
  'objects': {
    'id': [114, 115, 116, 117], 
    'area': [3796, 1596, 152768, 81002],
    'bbox': [
      [302.0, 109.0, 73.0, 52.0],
      [810.0, 100.0, 57.0, 28.0],
      [160.0, 31.0, 248.0, 616.0],
      [741.0, 68.0, 202.0, 401.0]
    ], 
    'category': [4, 4, 0, 0]
  }
}

数据字段

  • 图像:图像id
  • 图像:包含图像的PIL.Image.Image对象。注意,当访问图像列时:dataset[0]["image"],图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此,在访问 "image" 列之前首先查询样本索引是非常重要的,即 dataset[0]["image"] 应始终优先于 dataset["image"][0]
  • 宽度:图像宽度
  • 高度:图像高度
  • 对象:包含图像中存在的对象的边界框元数据的字典
    • id:注释id
    • area:边界框的面积
    • bbox:对象的边界框(以  coco 格式)
    • category:对象的类别,可能的值包括Coverall(0)、Face_Shield(1)、Gloves(2)、Goggles(3)和Mask(4)

数据划分

数据划分为训练集和测试集。训练集包含1000个图像,测试集包含29个图像。

数据集创建

策划理由

来自于论文:

CPPE-5数据集的目的是促进研究和在多个公共场所的应用中使用,以自动识别是否佩戴了个人防护设备(Personal Protective Equipment),以及佩戴了个人防护设备的哪个部分。这个数据集的一个主要目标是捕捉到这个数据集中对象的更高比例的非图标图像或非规范视角。我们进一步希望看到人们大量使用这个数据集来帮助在具有广泛影响的医疗场景中应用。

源数据

初始数据收集和归一化

CPPE-5数据集中的图像是使用以下过程收集的:

  • 从Flickr获取图像:根据我们之前确定的对象类别,我们首先从Flickr下载图像,并以“原始”尺寸保存。在Flickr上,图像以多种不同的尺寸提供(Square 75、Small 240、Large 1024、X-Large 4K等),"原始"尺寸是作者上传的图像的精确副本。
  • 提取相关元数据:Flickr包含具有可搜索的元数据的图像,我们提取以下相关元数据:
    • 到Flickr上原始图像的直接链接
    • 图像的宽度和高度
    • 作者给图像的标题
    • 图像上传的日期和时间
    • 图像作者的Flickr用户名
    • 图像作者的Flickr名称
    • 图像作者的Flickr个人资料
    • 图像授权的许可证
    • 原始图像的MD5哈希值
  • 从Google图像获取图像:由于前面提到的原因,我们只从Google图像收集了一小部分图像。对于这些图像,我们提取以下元数据:
    • 原始图像的直接链接
    • 图像的宽度和高度
    • 原始图像的MD5哈希值
  • 过滤不合适的图像:尽管收集到的图像中非常罕见,我们还是使用Flickr的安全筛选器和Google Safe Search去除了包含不适宜内容的图像。
  • 过滤相似的图像:然后我们使用GIST描述符从数据集中删除相似的图像。
谁是源语言制作者?

这个数据集的图像是从Flickr和Google Images收集的。

注释

注释过程

数据集的标注分为两个阶段:第一阶段标注了416张图像,第二阶段标注了613张图像。对数据集中的所有图像,志愿者们都获得了以下表格:

Item Description
coveralls Coveralls are hospital gowns worn by medical professionals as in order to provide a barrier between patient and professional, these usually cover most of the exposed skin surfaces of the professional medics.
mask Mask prevents airborne transmission of infections between patients and/or treating personnel by blocking the movement of pathogens (primarily bacteria and viruses) shed in respiratory droplets and aerosols into and from the wearer’s mouth and nose.
face shield Face shield aims to protect the wearer’s entire face (or part of it) from hazards such as flying objects and road debris, chemical splashes (in laboratories or in industry), or potentially infectious materials (in medical and laboratory environments).
gloves Gloves are used during medical examinations and procedures to help prevent cross-contamination between caregivers and patients.
goggles Goggles, or safety glasses, are forms of protective eye wear that usually enclose or protect the area surrounding the eye in order to prevent particulates, water or chemicals from striking the eyes.

以及以下示例:标注正确的图像、标注错误的图像和不适用的图像。在标注任务之前,每个志愿者都要进行一项练习,以验证志愿者是否能正确识别类别,并判断标注的图像是正确标注、错误标注还是不适用。标注过程首先要求两名志愿者独立标注数据集中的图像。对于以下任何情况:边界框数量不同、一个或多个边界框的标签不同或两个志愿者的标注明显不同,第三名志愿者将整理两个标注结果,得出正确标注的图像。在此步骤之后,还有一名志愿者对边界框注释进行验证。通过这种数据集标注方法,我们确保所有图像都被准确标注并包含全面的注释。因此,我们的数据集包含了1029张高质量、主要非图标的、标注准确的图像。

谁是标注者?

在两个阶段都使用了众包技术,多个志愿者使用开源工具LabelImg对数据集进行标注。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集创建者

Dagli, Rishit, 和 Ali Mustufa Shaikh.

许可信息

[需要更多信息]

引用信息

@misc{dagli2021cppe5,
      title={CPPE-5: Medical Personal Protective Equipment Dataset},
      author={Rishit Dagli and Ali Mustufa Shaikh},
      year={2021},
      eprint={2112.09569},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

贡献

感谢 @mariosasko 添加了这个数据集。