数据集:

khaclinh/pp4av

子任务:

face-detection

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended
英文

PP4AV 数据集简介

数据集概述

PP4AV 是第一个以行驶场景中的人脸和车牌为注释标签的公开数据集。PP4AV 提供了 3,447 张带有人脸和车牌注释的行驶图像。对于普通摄像头数据,数据集从安装在移动车辆上的现有视频中进行采样,这些视频在欧洲城市中行驶。PP4AV 数据集中的图像来自 6 个欧洲城市,包括夜晚和白天的不同时间。该数据集使用 WoodScape 数据集中的鱼眼图像,从前置摄像头、后置摄像头、左侧摄像头和右侧摄像头中选择了 244 张图像作为鱼眼相机数据。PP4AV 数据集可以作为自动驾驶中数据匿名化模型的基准套件(评估数据集)。

语言

英语

数据集创建

源数据

初始数据收集与规范化

PP4AV 的目标是构建一个用于评估自动驾驶中人脸和车牌检测模型的基准数据集。对于普通摄像头数据,我们从现有的视频中进行采样,这些视频是在欧洲城市中行驶的车辆上安装的摄像头拍摄的。我们专注于在城市地区采样数据,而不是在高速公路上,以提供足够数量的车牌和行人样本。PP4AV 数据集的图像来自欧洲的 6 个城市,包括白天和夜晚的不同时间。以下是来自欧洲 6 个城市的源数据的描述:

  • 巴黎: 该子集包含在白天驾驶汽车经过巴黎街道的 1450 张图像。视频帧速率为每秒 30 帧。视频的长度超过一小时。我们从中剪切了一个较短的视频进行采样和注释。原始视频可以在以下网址找到:URL: paris_youtube_video
  • 荷兰白天: 此子集包含海牙和阿姆斯特丹城市白天的 388 张图像。这个子集的图像是从以下原始视频中采样的: URL: netherland_youtube_video 视频的帧速率为每秒 30 帧。我们从中剪切了一个较短的视频进行采样和注释。原始视频的长度超过半个小时。
  • 荷兰夜晚: 此子集包含海牙和阿姆斯特丹城市夜晚的 824 张图像,这些图像是从以下原始视频中采样的: URL: netherland_youtube_video 视频的帧速率为每秒 30 帧。我们从中剪切了一个较短的视频进行采样和注释。原始视频的长度超过半个小时。
  • 瑞士: 此子集包含瑞士的 372 张图像,这些图像是从以下视频中采样的: URL: switzerland_youtube_video 视频的帧速率为每秒 30 帧。我们从中剪切了一个较短的视频进行采样和注释。原始视频的长度超过一小时。
  • 苏黎世: 此子集包含苏黎世城市的 50 张图像,这些图像由 Cityscapes 训练集中的 Zurich 子集提供 package leftImg8bit_trainvaltest.zip
  • 斯图加特: 此子集包含斯图加特城市的 69 张图像,这些图像由 Cityscapes 训练集中的 Stuttgart 子集提供 package leftImg8bit_trainvaltest.zip
  • 斯特拉斯堡: 此子集包含斯特拉斯堡城市的 50 张图像,这些图像由 Cityscapes 训练集中的 Strasbourg 子集提供 package leftImg8bit_trainvaltest.zip

我们使用 WoodScape 数据集中的鱼眼图像,从前置摄像头、后置摄像头、左侧摄像头和右侧摄像头中选择了 244 张图像作为鱼眼相机数据的样本。鱼眼图像的采样源位于 WoodScape 的 Fisheye images 处。

PP4AV 共选出并注释了 3,447 张图像。

注释

注释过程

标注者会在图像中标注人脸和车牌对象。对于人脸对象,边界框包括从前额到下巴到耳朵处可检测到的所有人脸。人脸标注了多种尺寸、肤色和部分被透明材料(如汽车挡风玻璃)遮挡的面部。对于车牌对象,边界框包括所有可识别的车牌,其具有高度变化,如不同大小、国家、车辆类型(摩托车、汽车、公交车、卡车)以及被其他车辆遮挡情况。车牌是针对移动交通中的车辆进行注释的。为确保注释的质量,注释过程分为两个步骤。在第一阶段,两组标注者将独立注释相同的图像集。完成他们的注释输出后,将根据两个注释边界框之间的 IoU 分数应用合并方法。IoU 分数高于阈值的注释对将合并并保存为单个注释。IoU 分数低于阈值的注释对将被视为冲突。在第二阶段,两组审阅员将检查冲突注释对进行修订,然后应用类似于第一阶段的合并方法进行第二次合并。这两个阶段的结果将合并形成最终的注释。所有工作都在 CVAT 工具 https://github.com/openvinotoolkit/cvat 上进行。

谁是注释者?

Vantix 数据科学团队

数据集文件夹

data 文件夹包含以下文件:

  • images.zip:包含 PP4AV 数据集的所有预处理图像。在这个 zip 文件中,包含以下文件夹: fisheye:包含 244 张鱼眼图像,文件类型为 .png zurich:包含 244 张鱼眼图像,文件类型为 .png strasbourg:包含 244 张鱼眼图像,文件类型为 .png stuttgart:包含 244 张鱼眼图像,文件类型为 .png switzerland:包含 244 张鱼眼图像,文件类型为 .png netherlands_day:包含 244 张鱼眼图像,文件类型为 .png netherlands_night:包含 244 张鱼眼图像,文件类型为 .png paris:包含 244 张鱼眼图像,文件类型为 .png

  • annotations.zip:包含与 images.zip 数据对应的注释数据。在这个文件中,包含以下文件夹: fisheye:包含 244 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式。 zurich:包含 50 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式,对应于 zurich 子集的 50 个图像文件。 strasbourg:包含 50 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式,对应于 strasbourg 子集的 50 个图像文件。 stuttgart:包含 69 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式,对应于 stuttgart 子集的 69 个图像文件。 switzerland:包含 372 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式,对应于 switzerland 子集的 372 个图像文件。 netherlands_day:包含 388 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式,对应于 netherlands_day 子集的 388 个图像文件。 netherlands_night:包含 824 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式,对应于 netherlands_night 子集的 824 个图像文件。 paris:包含 1450 个注释,文件类型为 .txt,遵循 yolo v1.1 的格式,对应于 paris 子集的 1450 个图像文件。

  • soiling_annotations.zip:包含未经过滤的原始注释数据。该文件的文件夹结构与 annotations.zip 的格式相似。

个人和敏感信息

[需要更多信息]

数据集结构

数据实例

一个数据点包括一张图像和对应的人脸和车牌注释。

{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1920x1080 at 0x19FA12186D8>, 'objects': {
    'bbox': [
      [0 0.230078 0.317081 0.239062 0.331367],
      [1 0.5017185 0.0306425 0.5185935 0.0410975],
      [1 0.695078 0.0710145 0.7109375 0.0863355],
      [1 0.4089065 0.31646 0.414375 0.32764],
      [0 0.1843745 0.403416 0.201093 0.414182],
      [0 0.7132 0.3393474 0.717922 0.3514285]
    ]
  }
}

数据字段

  • image: 包含图像的 PIL.Image.Image 对象。注意,当访问图像列时:dataset[0]["image"] 将自动解码图像文件。解码大量图像文件可能需要很长时间。因此,在 "image" 列之前首先查询样本索引是很重要的,即 dataset[0]["image"] 应优先于 dataset["image"][0]
  • objects: 包含图像上人脸和车牌边界框的字典
    • bbox: 每个人脸和车牌的边界框(以 yolo 格式)。基本上,每个图像文件的注释 .txt 文件中的每一行都由以下格式的数据组成:<对象类别> <中心点 x 坐标> <中心点 y 坐标> <宽度> <高度>:
      • 对象类别: 0 到 1 之间的整数,其中 0 表示人脸对象,1 表示车牌对象
      • 中心点 x 坐标: 边界框中心点的标准化 x 轴坐标。x_center = <绝对_x_center> / <图像宽度>
      • 中心点 y 坐标: 边界框中心点的标准化 y 轴坐标。y_center = <绝对_y_center> / <图像高度>
      • 宽度: 边界框的标准化宽度。width = <绝对宽度> / <图像宽度>
      • 高度: 边界框的标准化高度。height = <绝对高度> / <图像高度>
      • YOLO v1.1 格式示例 .txt 注释文件中的行示例: 1 0.716797 0.395833 0.216406 0.147222 0 0.687109 0.379167 0.255469 0.158333 1 0.420312 0.395833 0.140625 0.166667`

使用数据的注意事项

数据集的社会影响

[需要更多信息]

对偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

基线模型

预训练的权重和基线模型的演示可在 self-driving-anonymization huggingface spaces 中找到

数据集策划者

Linh Trinh

许可信息

Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

引用信息

@article{PP4AV2022,
  title = {PP4AV: A benchmarking Dataset for Privacy-preserving Autonomous Driving},
  author = {Linh Trinh, Phuong Pham, Hoang Trinh, Nguyen Bach, Dung Nguyen, Giang Nguyen, Huy Nguyen},
  booktitle = {IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)},
  year = {2023}
}

贡献

感谢 @khaclinh 添加了这个数据集。