数据集:

wider_face

子任务:

face-detection

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

预印本库:

arxiv:1511.06523
英文

WIDER FACE 数据集

数据集概述

WIDER FACE 数据集是一个人脸检测基准数据集,其中的图片是从公开可用的 WIDER 数据集中选择的。我们选择了32,203张图片,并标注了393703个具有尺度、姿态和遮挡程度高度可变性的人脸,如示例图片所示。WIDER FACE 数据集基于61个事件类别进行组织。对于每个事件类别,我们随机选择40% / 10% / 50%的数据作为训练、验证和测试集。我们采用了与 PASCAL VOC 数据集相同的评估指标。与 MALF 和 Caltech 数据集类似,我们不会发布测试图像的边界框真值。用户需要提交最终的预测文件,我们将对其进行评估。

支持的任务和排行榜

  • 人脸检测:该数据集可用于训练人脸检测模型。有关评估模型性能的更多信息可在 here 处找到。

语言

英语

数据集结构

数据实例

数据点包括一张图片及其人脸注释。

{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1024x755 at 0x19FA12186D8>, 'faces': {
    'bbox': [
      [178.0, 238.0, 55.0, 73.0],
      [248.0, 235.0, 59.0, 73.0],
      [363.0, 157.0, 59.0, 73.0],
      [468.0, 153.0, 53.0, 72.0],
      [629.0, 110.0, 56.0, 81.0],
      [745.0, 138.0, 55.0, 77.0]
    ], 
    'blur': [2, 2, 2, 2, 2, 2],
    'expression': [0, 0, 0, 0, 0, 0],
    'illumination': [0, 0, 0, 0, 0, 0],
    'occlusion': [1, 2, 1, 2, 1, 2],
    'pose': [0, 0, 0, 0, 0, 0],
    'invalid': [False, False, False, False, False, False]
  }
}

数据字段

  • image:包含图像的 Pil.Image.Image 对象。请注意,当访问图像列时,自动解码图像文件。解码大量图像文件可能需要很长时间。因此,最好先查询样本索引,然后是"image"列,即 dataset[0]["image"] 应始终优先于 dataset["image"][0]
  • faces:每个人脸的人脸属性字典
    • bbox:每个人脸的边界框(以 coco 格式)
    • blur:每个人脸的模糊程度,可能的值包括 clear(0)、normal(1)和 heavy
    • expression:每个人脸的面部表情,可能的值包括 typical(0)和 exaggerate(1)
    • illumination:每个人脸的光照条件,可能的值包括 normal(0)和 exaggerate(1)
    • occlusion:每个人脸的遮挡程度,可能的值包括 no(0)、partial(1)和 heavy(2)
    • pose:每个人脸的姿态,可能的值包括 typical(0)和 atypical(1)
    • invalid:图像是否有效

数据分割

数据分为训练集、验证集和测试集。WIDER FACE 数据集根据61个事件类别进行组织。对于每个事件类别,随机选择40% / 10% / 50%的数据作为训练、验证和测试集。训练集包含12880张图片,验证集包含3226张图片,测试集包含16097张图片。

数据集创建

策划理由

策划者表示,当前的人脸检测数据集通常只包含几千个人脸,姿态、尺度、面部表情、遮挡和背景干扰的变化有限,很难评估其在真实世界中的性能。他们认为数据集的局限性部分导致了一些算法在处理大量遮挡、小尺度和非典型姿态时的失败。

源数据

数据收集和标准化

WIDER FACE 数据集是 WIDER 数据集的一个子集。WIDER 中的图片经过以下三个步骤收集:1)根据大规模多媒体本体(Large Scale Ontology for Multimedia,LSCOM)[22]定义和选择事件类别,该本体提供了约1000个与视频事件分析相关的概念。2)使用谷歌和必应等搜索引擎检索图片。对于每个类别,收集了1000-3000张图片。3)通过手动检查所有图片并过滤掉没有人脸的图片进行了数据清理。然后移除每个事件类别中相似的图片,以确保人脸外观具有大的多样性。最终包含了32203张图片的 WIDER FACE 数据集。

谁是源语言的生产者?

图片是从公开可用的 WIDER 数据集中选择的。

注释

注释过程

策划者为 WIDER FACE 数据集中所有可识别的人脸标注了边界框。边界框需要紧密包含前额、下巴和脸颊。如果人脸被遮挡了,他们仍然用边界框标注,但会估计遮挡的程度。与 PASCAL VOC 数据集[6]类似,对于由于低分辨率和小尺度(小于10个像素)而很难识别的人脸,他们将其标记为“忽略”(Ignore)。在标注完人脸边界框后,他们进一步标注以下属性:姿态(typical、atypical)和遮挡程度(partial、heavy)。每个注释由一个注释者标记,并由两个不同的人进行交叉检查。

谁是注释者?

Shuo Yang,Ping Luo,Chen Change Loy 和 Xiaoou Tang。

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

Shuo Yang,Ping Luo,Chen Change Loy 和 Xiaoou Tang

许可信息

Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

引用信息

@inproceedings{yang2016wider,
    Author = {Yang, Shuo and Luo, Ping and Loy, Chen Change and Tang, Xiaoou},
    Booktitle = {IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
    Title = {WIDER FACE: A Face Detection Benchmark},
    Year = {2016}}

贡献

感谢 @mariosasko 添加了此数据集。