数据集:

detection-datasets/fashionpedia

英文

Fashionpedia 数据集卡

数据集概述

Fashionpedia 是一个将时尚世界的视觉特征进行映射的数据集。来自论文:

Fashionpedia 是一个新的数据集,包括两个部分:(1) 由时尚专家构建的本体论,包含 27 个主要服装类别,19 个服装部位,294 个细粒度属性及其关系;(2) 一个数据集,包含日常和名人事件时装图像,标注有分割掩码及其关联的细粒度属性,建立在 Fashionpedia 本体论的基础上。Fashionpedia 包含:

  • 46781 张图像
  • 342182 个边界框

支持的任务

  • 目标检测
  • 图像分类

语言

所有注释都使用英语作为主要语言。

数据集结构

数据集的结构如下所示:

DatasetDict({
    train: Dataset({
        features: ['image_id', 'image', 'width', 'height', 'objects'],
        num_rows: 45623
    })
    val: Dataset({
        features: ['image_id', 'image', 'width', 'height', 'objects'],
        num_rows: 1158
    })
})

数据实例

一张图像的数据示例:

{'image_id': 23,
 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=682x1024>,
 'width': 682,
 'height': 1024,
 'objects': {'bbox_id': [150311, 150312, 150313, 150314],
  'category': [23, 23, 33, 10],
  'bbox': [[445.0, 910.0, 505.0, 983.0],
   [239.0, 940.0, 284.0, 994.0],
   [298.0, 282.0, 386.0, 352.0],
   [210.0, 282.0, 448.0, 665.0]],
  'area': [1422, 843, 373, 56375]}}

每个字段的类型定义如下:

{'image_id': Value(dtype='int64'),
'image': Image(decode=True),
'width': Value(dtype='int64'),
'height': Value(dtype='int64'),
'objects': Sequence(feature={
  'bbox_id': Value(dtype='int64'), 
  'category': ClassLabel(num_classes=46, names=['shirt, blouse', 'top, t-shirt, sweatshirt', 'sweater', 'cardigan', 'jacket', 'vest', 'pants', 'shorts', 'skirt', 'coat', 'dress', 'jumpsuit', 'cape', 'glasses', 'hat', 'headband, head covering, hair accessory', 'tie', 'glove', 'watch', 'belt', 'leg warmer', 'tights, stockings', 'sock', 'shoe', 'bag, wallet', 'scarf', 'umbrella', 'hood', 'collar', 'lapel', 'epaulette', 'sleeve', 'pocket', 'neckline', 'buckle', 'zipper', 'applique', 'bead', 'bow', 'flower', 'fringe', 'ribbon', 'rivet', 'ruffle', 'sequin', 'tassel']), 
  'bbox': Sequence(feature=Value(dtype='float64'), length=4), 
  'area': Value(dtype='int64')}, 
length=-1)}

数据字段

数据集具有以下字段:

  • image_id :图像的唯一数字 ID。
  • image :包含图像的 PIL.Image.Image 对象。注意,访问图像列时: dataset[0]["image"] 图像文件将被自动解码。解码大量图像文件可能需要相当长的时间。因此,在 "image" 列之前,应首先查询样本索引,即 dataset[0]["image"] 应始终优于 dataset["image"][0]
  • width :图像宽度。
  • height :图像高度。
  • objects :一个包含图像中对象的边界框元数据的字典:
    • bbox_id :边界框注释的唯一数字 ID。
    • category :对象的类别。
    • area :边界框的面积。
    • bbox :对象的边界框(以 Pascal VOC 格式)

数据拆分

Train Validation Test
Images 45623 1158 0
Bounding boxes 333401 8781 0

附加信息

许可信息

Fashionpedia 在 Creative Commons Attribution 4.0 International License 下进行许可。

引用信息

@inproceedings{jia2020fashionpedia,
  title={Fashionpedia: Ontology, Segmentation, and an Attribute Localization Dataset},
  author={Jia, Menglin and Shi, Mengyun and Sirotenko, Mikhail and Cui, Yin and Cardie, Claire and Hariharan, Bharath and Adam, Hartwig and Belongie, Serge}
  booktitle={European Conference on Computer Vision (ECCV)},
  year={2020}
}

贡献者

感谢 @blinjrm 添加了这个数据集。