数据集:

shunk031/cocostuff

英文

COCO-Stuff 数据集概览

数据集摘要

COCO-Stuff 是目前最大的具有稠密区域和物体注释的数据集。

来自论文:

语义类别可以是物体(具有明确定义形状的对象,例如汽车、人类)或区域(没有明确定义形状的背景区域,例如草地、天空)。虽然很多分类和检测的研究都侧重于物体类别,但对于区域类别关注较少。然而,区域类别同样重要,因为它们可以解释图像的重要方面,包括(1)场景类型;(2)可能存在的物体类别及其位置(通过上下文推理);(3)场景的物理属性、材料类型和几何特征。为了理解上下文中的区域和物体,我们引入了COCO-Stuff数据集,它在COCO 2017数据集的所有164K张图像上增加了91个区域类别的逐像素注释。我们采用基于超像素的高效区域注释协议,利用原有的物体注释。我们量化了协议的速度与质量之间的权衡,并探讨了注释时间与边界复杂性之间的关系。此外,我们使用COCO-Stuff分析了:(a)在图像标题中,区域和物体类别在表面覆盖和被提及频率上的重要性;(b)区域和物体之间的空间关系,突出了丰富的上下文关系,使我们的数据集与众不同;(c)现代语义分割方法在区域和物体类别上的性能,以及区域是否比物体更容易分割。

数据集预处理

支持的任务和排行榜

语言

所有注释都使用英语作为主要语言。

数据集结构

数据实例

在加载特定配置时,用户必须附加一个依赖版本的后缀:

from datasets import load_dataset
load_dataset("shunk031/cocostuff", "stuff-thing")
stuff-things

示例如下:

{
    'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=640x480 at 0x7FCA033C9C40>,
    'image_filename': '000000000009.jpg',
    'image_id': '9',
    'width': 640
    'height': 480,
    'objects': [
        {
            'object_id': '121',
            'x': 0,
            'y': 11,
            'w': 640,
            'h': 469,
            'name': 'food-other'
        },
        {
            'object_id': '143',
            'x': 0,
            'y': 0
            'w': 640,
            'h': 480,
            'name': 'plastic'
        },
        {
            'object_id': '165',
            'x': 0,
            'y': 0,
            'w': 319,
            'h': 118,
            'name': 'table'
        },
        {
            'object_id': '183',
            'x': 0,
            'y': 2,
            'w': 631,
            'h': 472,
            'name': 'unknown-183'
        }
    ],
    'stuff_map': <PIL.PngImagePlugin.PngImageFile image mode=L size=640x480 at 0x7FCA0222D880>,
 }
stuff-only

示例如下:

{
    'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=640x480 at 0x7FCA033C9C40>,
    'image_filename': '000000000009.jpg',
    'image_id': '9',
    'width': 640
    'height': 480,
    'objects': [
        {
            'object_id': '121',
            'x': 0,
            'y': 11,
            'w': 640,
            'h': 469,
            'name': 'food-other'
        },
        {
            'object_id': '143',
            'x': 0,
            'y': 0
            'w': 640,
            'h': 480,
            'name': 'plastic'
        },
        {
            'object_id': '165',
            'x': 0,
            'y': 0,
            'w': 319,
            'h': 118,
            'name': 'table'
        },
        {
            'object_id': '183',
            'x': 0,
            'y': 2,
            'w': 631,
            'h': 472,
            'name': 'unknown-183'
        }
    ]
 }

数据字段

stuff-things
  • image: 包含图像的PIL.Image.Image对象。
  • image_id: 图像的唯一数字ID。
  • image_filename: 图像的文件名。
  • width: 图像宽度。
  • height: 图像高度。
  • stuff_map: 包含区域+物体的PNG样式注释的PIL.Image.Image对象。
  • objects: 保存对象数据类的列表:
    • object_id: 对象的唯一数字ID。
    • x: 边界框左上角的x坐标。
    • y: 边界框左上角的y坐标。
    • w: 边界框的宽度。
    • h: 边界框的高度。
    • name: 对象名字。
stuff-only
  • image: 包含图像的PIL.Image.Image对象。
  • image_id: 图像的唯一数字ID。
  • image_filename: 图像的文件名。
  • width: 图像宽度。
  • height: 图像高度。
  • objects: 保存对象数据类的列表:
    • object_id: 对象的唯一数字ID。
    • x: 边界框左上角的x坐标。
    • y: 边界框左上角的y坐标。
    • w: 边界框的宽度。
    • h: 边界框的高度。
    • name: 对象名字。

数据拆分

name train validation
stuff-thing 118,280 5,000
stuff-only 118,280 5,000

数据集创建

策划理由

数据源

初始数据收集和规范化 由哪些语言提供数据?

注释

注释过程 注释者是谁?

来自论文:

COCO-Stuff 包含 172 个类别:80 个物体、91 个区域和 1 个未标记类别。80 个物体类别与 COCO 相同。91 个区域类别由一名专家注释员精选。未标记类别在两种情况下使用:如果一个标签不属于任何预定义的 171 个类别之一,或者注释员无法推断像素的标签。

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集策展人员

许可信息

COCO-Stuff 是 COCO 数据集的一个衍生作品。COCO 的作者不以任何方式支持此作品。不同的许可证适用:

引用信息

@INPROCEEDINGS{caesar2018cvpr,
  title={COCO-Stuff: Thing and stuff classes in context},
  author={Caesar, Holger and Uijlings, Jasper and Ferrari, Vittorio},
  booktitle={Computer vision and pattern recognition (CVPR), 2018 IEEE conference on},
  organization={IEEE},
  year={2018}
}

贡献

感谢 @nightrome 发布了 COCO-Stuff 数据集。