数据集:

khaclinh/testdata

子任务:

face-detection

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended
英文

PP4AV 数据集卡片

数据集概述

PP4AV 是第一个具有驾驶场景人脸和车牌注释的公开数据集。P4AV 提供了 3,447 张标注的行驶图像,包括人脸和车牌。对于普通相机数据,数据集中的图像来自于安装在移动车辆上的摄像头所拍摄的现有视频。PP4AV 数据集的图像来自于欧洲的 6 个城市,包括各个时间段,包括夜晚。该数据集使用 WoodScape 数据集的鱼眼图像,从前置、后置、左侧和右侧摄像头中选择了 244 张图像作为鱼眼相机数据。PP4AV 数据集可作为自动驾驶系统中数据匿名化模型的基准套件(评估数据集)。

语言

英语

数据集结构

数据实例

数据点包括图像及其人脸和车牌注释。

{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1920x1080 at 0x19FA12186D8>, 'objects': {
    'bbox': [
      [0 0.230078 0.317081 0.239062 0.331367],
      [1 0.5017185 0.0306425 0.5185935 0.0410975],
      [1 0.695078 0.0710145 0.7109375 0.0863355],
      [1 0.4089065 0.31646 0.414375 0.32764],
      [0 0.1843745 0.403416 0.201093 0.414182],
      [0 0.7132 0.3393474 0.717922 0.3514285]
    ]
  }
}

数据字段

  • image:包含图像的PIL.Image.Image对象。注意,当访问图像列时:dataset[0]["image"],图像文件将自动解码。解码大量图像文件可能需要很长时间。因此,在“image”列之前始终首先查询样本索引,即dataset[0]["image"]比dataset["image"][0]更好。
  • objects:图像上存在的人脸和车牌边界框的字典
    • bbox:每个人脸和车牌的边界框(使用 yolo 格式)。基本上,每个图像。.png文件的注释.txt文件中的每行数据的格式为:
      • object-class:0到1的对象的整数编号,其中0表示人脸对象,1表示车牌对象
      • x_center:边界框中心的归一化x轴坐标。x_center = /
      • y_center:边界框中心的归一化y轴坐标。y_center = /
      • width:边界框的归一化宽度。width = /
      • height:边界框的归一化高度。height = /
      • YOLO v1.1格式示例行.txt'注释文件:
        • 1 0.716797 0.395833 0.216406 0.147222
        • 0 0.687109 0.379167 0.255469 0.158333
        • 1 0.420312 0.395833 0.140625 0.166667

    数据集创建

    源数据

    初始数据收集和规范化

    PP4AV 的目标是构建一个基准数据集,用于评估自动驾驶系统中的人脸和车牌检测模型。对于普通相机数据,我们从现有视频中采样图像,这些视频是安装在移动车辆上,在欧洲城市行驶的。我们重点关注在城市地区采样数据,而不是高速公路,以便提供足够数量的车牌和行人样本。PP4AV 数据集的图像来自于欧洲的 6 个城市,包括各个时间段,包括夜晚。欧洲 6 个城市的源数据如下所述:

    • 巴黎:此子集包含在白天行驶在巴黎街道上的汽车的 1450 张图像。视频帧率为每秒 30 帧。视频长度超过一小时。我们剪切了一个较短的视频进行采样和注释。原始视频的 URL 如下:URL: paris_youtube_video
    • 荷兰白天:此子集包含在白天采样的海牙、阿姆斯特丹等城市的 388 张图像。该子集的图像来自以下原始视频:URL: netherland_youtube_video 。视频帧率为每秒 30 帧。我们剪切了一个较短的视频进行采样和注释。原始视频的长度超过半小时。
    • 荷兰夜晚:此子集包含在夜晚采样的海牙、阿姆斯特丹等城市的 824 张图像。该子集的图像来自以下原始视频:URL: netherland_youtube_video 。视频帧率为每秒 30 帧。我们剪切了一个较短的视频进行采样和注释。原始视频的长度超过半小时。
    • 瑞士:此子集包含在瑞士采样的 372 张图像。图像来自以下视频:URL: switzerland_youtube_video 。视频帧率为每秒 30 帧。我们剪切了一个较短的视频进行采样和注释。原始视频的长度超过一小时。
    • 苏黎世:此子集包含苏黎世城的 50 张图像,由 Cityscapes 训练集中的 package leftImg8bit_trainvaltest.zip 提供。
    • 斯图加特:此子集包含斯图加特城的 69 张图像,由 Cityscapes 训练集中的 package leftImg8bit_trainvaltest.zip 提供。
    • 斯特拉斯堡:此子集包含斯特拉斯堡城的 50 张图像,由 Cityscapes 训练集中的 package leftImg8bit_trainvaltest.zip 提供。

    我们使用 WoodScape 数据集的鱼眼图像,从前置、后置、左侧和右侧摄像头中选择 244 张图像作为鱼眼相机数据的源数据。鱼眼数据的源文件位于 WoodScape 的 Fisheye images 处。

    总共选择了 3,447 张图像,并在 PP4AV 中进行了标注。

    注释

    注释过程

    标注员对图像中的人脸和车牌对象进行标注。对于人脸对象,边界框包括从前额到下巴再到耳朵处可检测到的所有人脸。人脸以多种尺寸、肤色和被透明材料(如汽车挡风玻璃)部分遮挡的面部进行标注。对于车牌对象,边界框包括具有高度可变性的所有可以识别的车牌,如不同尺寸、国家、车辆类型(摩托车、汽车、公交车、卡车)以及被其他车辆遮挡。车牌的标注是针对行驶车辆的。为确保注释的质量,在注释过程中有两个步骤。第一阶段,两组标注员将独立对相同图像集进行注释。完成其注释输出后,将根据两次注释的边界框之间的 IoU 得分应用合并方法。IoU 得分超过阈值的注释对将被合并并保存为单个注释。IoU 得分低于阈值的注释对将被视为冲突。在第二阶段,两组评审人员将审查冲突的注释对以进行修订,然后再次应用类似于第一阶段的合并方法。这两个阶段的结果将合并形成最终的注释。所有工作都在 CVAT 工具上进行 https://github.com/openvinotoolkit/cvat

    谁是注释者?

    Vantix 数据科学团队

    个人和敏感信息

    [需要更多信息]

    数据使用的考虑事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    附加信息

    数据集创建者

    Linh Trinh

    许可信息

    Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

    引用信息

    @article{PP4AV2022,
      title = {PP4AV: A benchmarking Dataset for Privacy-preserving Autonomous Driving},
      author = {Linh Trinh, Phuong Pham, Hoang Trinh, Nguyen Bach, Dung Nguyen, Giang Nguyen, Huy Nguyen},
      booktitle = {IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)},
      year = {2023}
    }
    

    贡献

    感谢 @khaclinh 添加此数据集。