数据集:

scene_parse_150

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

源数据集:

extended|ade20k

预印本库:

arxiv:1608.05442
英文

MIT场景解析基准数据集数据卡片

数据集概述

场景解析是将图像分割和解析为与语义类别相关的不同图像区域(例如天空、道路、人和床)的任务。 MIT场景解析基准数据集(SceneParse150)为场景解析算法提供了标准的训练和评估平台。该基准数据集的数据来自ADE20K数据集,该数据集包含20K多个以场景为中心的图像,详细注释了对象和对象部分。具体而言,该基准数据集分为20K个用于训练的图像,2K个用于验证,以及用于测试的另一批图像。总共包括150个语义类别进行评估,包括天空、道路、草地等以及像人、汽车、床等离散对象。请注意,图像中对象的分布不均匀,模拟了日常场景中更自然的对象出现。

该基准数据集的目标是将图像分割和解析为与语义类别相关的不同图像区域,例如天空、道路、人和床。该基准数据集类似于COCO和Pascal数据集中的语义分割任务,但数据更加场景中心化,包含了各种各样的对象类别。该基准数据集的数据来自ADE20K数据集,该数据集包含20K多个以场景为中心的图像,详细注释了对象和对象部分。

支持的任务和排行榜

  • 场景解析:该任务的目标是将整个图像密集地划分为语义类别(图像区域),其中每个像素被分配一个类别标签,例如树木区域和建筑物区域。 The leaderboard 根据像素精度和类别IoU的平均值作为最终得分对模型进行排序。像素精度表示正确预测的像素比例,而类别IoU表示在所有150个语义类别上平均的像素的交并比。有关详细信息,请参阅 Development Kit

  • 实例分割:此任务的目标是检测图像中的对象实例,并进一步生成精确的对象分割掩码。与场景解析任务相比,实例分割没有实例概念用于分割的区域,而是如果场景中有三个人,则要求网络分割每个人的区域。该任务没有活动排行榜。实例分割算法的性能通过平均精度(AP或mAP)进行评估,遵循COCO评估指标。对于每个图像,最多取所有类别中得分最高的255个实例掩码。仅当实例掩码与地面真值的IoU高于某个阈值时,才考虑每个实例掩码预测。评估时有10个介于0.50和0.95的IoU阈值。最终的AP在10个IoU阈值和100个类别之间进行平均。您可以参考COCO评估页面了解更多解释: http://mscoco.org/dataset/#detections-eval

语言

英语。

数据集结构

数据实例

一个数据点包括一张图像和其注释掩码,在测试集中为None。scene_parsing配置还有一个额外的scene_category字段。

scene_parsing
{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=683x512 at 0x1FF32A3EDA0>,
  'annotation': <PIL.PngImagePlugin.PngImageFile image mode=L size=683x512 at 0x1FF32E5B978>,
  'scene_category': 0
}
instance_segmentation
{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=256x256 at 0x20B51B5C400>,
  'annotation': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=256x256 at 0x20B57051B38>
}

数据字段

scene_parsing
  • 图像:包含图像的PIL.Image.Image对象。请注意,在访问图像列时,始终首先查询样本索引,即dataset[0]["image"]应始终优于dataset["image"][0]。
  • 注释:包含注释掩码的PIL.Image.Image对象。
  • scene_category:图像的场景类别(例如airport_terminal,canyon,mobile_home)。

注意:注释掩码中的标签范围从0到150,其中0表示“其他对象”。这些像素在官方评估中不被考虑。有关包括索引、像素比率和名称的150个语义类别的标签的信息,请参阅 this file

instance_segmentation
  • 图像:包含图像的PIL.Image.Image对象。请注意,在访问图像列时,始终首先查询样本索引,即dataset[0]["image"]应始终优于dataset["image"][0]。
  • 注释:包含注释掩码的PIL.Image.Image对象。

注意:在实例注释掩码中,R(红)通道编码类别ID,G(绿)通道编码实例ID。每个对象实例都有唯一的实例ID,无论其类别ID如何。在数据集中,所有图像均具有少于256个对象实例。有关100个语义类别的标签的映射,请参阅 this file 以及 this file (validation split)

数据拆分

数据分为训练、测试和验证集。训练数据包含20210张图像,测试数据包含3352张图像,验证数据包含2000张图像。

数据集创建

策划原理

来自论文的ADE20K数据集的有理基础:

视觉场景的语义理解是计算机视觉的首要目标之一。尽管社区在数据收集方面付出了努力,但仍然缺乏涵盖广泛场景和对象类别的图像数据集,这些图像数据集具有场景理解的像素级注释。在这项工作中,我们介绍了一个密集注释的数据集ADE20K,该数据集涵盖了场景、对象、对象部分的各种注释,有些甚至包括部分的部分。

本工作的动机是收集具有大型和不受限制的开放词汇的密集注释图像数据集。我们的图像对大规模且无限制开放词汇的目标是有密集注释的。我们的图像通过手动详细分割,覆盖了各种场景、对象和对象部分类别。收集此类注释的挑战在于找到可靠的注释者,以及如果事先未定义类别列表,则标注困难。另一方面,开放词汇命名也存在来自不同注释者之间的命名不一致性的问题。相比之下,我们的数据集由单个专家注释者进行注释,提供了极其详细和详尽的图像注释。平均而言,我们的注释者每个图像标注了29个注释段,而外部注释者(如来自Amazon Mechanical Turk的工人)标注的每个图像的段落数为16(参见图5)。此外,数据的一致性和质量要比外部注释者高得多。

源数据

初始数据收集和规范化

图像来自LabelMe、SUN数据集和Places,并被选择以覆盖SUN数据库中定义的900个场景类别。

此基准数据集是通过从ADE20K数据集中选择排名前150个对象的总像素比率构建的。由于ADE20K数据集中原始图像的大小各异,为了简便起见,这些大尺寸图像被重新缩放,使它们的最小高度或宽度为512。在150个对象中,有35个“物质”类别(例如墙、天空、道路)和115个离散对象(例如汽车、人、桌子)。在数据集中,150个对象的注释像素占据了92.75%的所有像素,其中“物质”类别占据了60.92%,离散对象占据了31.83%。

谁是源语言制造者?

与LabelMe、SUN数据集和Places数据集中的制造者相同。

注释说明

注释过程

ADE20K数据集的注释过程:

图像注释。对于我们的数据集,我们希望具有密集注释的各种场景图像和所有存在对象的注释。图像来自LabelMe、SUN数据集和Places,并被选择以覆盖SUN数据库中定义的900个场景类别。图像由单个专家工人使用LabelMe界面进行注释。图2显示了注释界面的快照和一个完全分割的图像。工人提供了三种类型的注释:具有名称的对象片段、对象部分和属性。所有对象实例都是独立分段的,以便数据集可以用于训练和评估检测或分割算法。像COCO、Pascal或Cityscape等数据集从定义的一组感兴趣的对象类别开始。然而,在标签化场景中的所有对象时,使用预定义的对象列表是不可能的,因为新的类别经常出现(请参见图5.d)。在这里,标注器创建了一个视觉概念字典,在其中不断添加新的类别,以确保对象命名的一致性。对象部分与对象实例关联。请注意,部分还可以有部分,并且我们也标记这些关联。例如,“边缘”是“轮毂”的一部分,而“轮毂”是“汽车”的一部分。门“是“确定”的一部分,可以是“橱柜”的一部分。完整的部分层次结构的深度为3。对象和部分层次结构在补充材料中。

注释一致性。当标注任务仅限于固定的对象类别列表时,定义标注协议相对容易,但当类别列表是开放式的时,情况就变得更具挑战性。由于目标是标注图像中的所有对象,因此类别列表在整个数据集中不断增长。许多对象类别在整个图像集合中仅出现几次。但是,这些稀有的对象类别不能被忽略,因为它们可能是解释场景的重要元素。在这种情况下,由于需要保持整个数据集中的一致命名,因此需要维护一个不断增长的所有对象类别列表。尽管注释者尽最大努力,但该过程并不是没有噪音的。为了分析注释一致性,我们从验证集中随机选择了61个图像的子集,然后要求我们的标注者再次对其进行注释(时间差为六个月)。人们预计两个注释之间会有一些差异。图3显示了一些示例。平均而言,82.4%的像素获得相同的标签。其余17.6%的像素有一些错误,我们将其分为三种错误类型:

•分割质量:分割和轮廓的质量变化。一个常见的错误来源是对复杂对象(如建筑物和树木)进行分割,可以使用不同程度的精度进行分割 (5.7%的像素具有此类错误)。

•对象命名:对象命名的差异(由于概念之间的模糊性或相似性,例如在一个分割中将大型汽车称为“汽车”,而在另一个分割中称为“卡车”,或者将“棕榈树”称为“树”(6.0%的像素存在命名问题) )。

•分割数量:一个分割中缺少的对象。每个图像中的对象非常多,有些图像可能标注得比其他图像更彻底。例如,在图3的第三列中,标注者错过了一些小的对象。由于选择的标签数量较少,5.9%的像素由于缺少标签而存在。类似的问题存在于伯克利图像分割数据集等分割数据集中。

三种错误类型的中位数错误值分别为4.8%、0.3%和2.6%,显示均值由少数图像主导,并且最常见的错误类型是分割质量。为了进一步比较我们的单个专家注释者和AMT型注释者进行的注释,我们邀请了两位外部注释者,两位都具有图像标注方面的经验,对验证集中的20张图像进行了标注。与我们的注释者提供的分割相比,第一位外部注释者有58.5%的不一致像素,第二位外部注释者有75%的不一致像素。其中许多不一致性是由于外部注释者提供的分割质量较差(这也是AMT观察到的,AMT需要多个验证步骤来进行质量控制)。对于最好的外部注释者(第一个注释者),有7.9%的像素具有不一致的分割(略微差于我们的注释者),14.9%具有不一致的对象命名,35.8%的像素对应于缺失的对象,这是由于与我们的专家注释者注释的对象相比,由外部注释者注释的对象要少得多。外部注释者平均每个图像标注16个片段,而我们的注释者每个图像提供了29个片段。

谁是标注者?

三个专家注释者和AMT型注释者。

个人和敏感信息

[需要更多信息]

数据使用注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

有关注释过程的一致性的详细信息,请参见注释过程的注释一致性子节。

其他信息

数据集策划者

Bolei Zhou,Hang Zhao,Xavier Puig,Sanja Fidler,Adela Barriuso和Antonio Torralba。

许可信息

MIT场景解析基准数据集根据 BSD 3-Clause License 进行许可。

引用信息

@inproceedings{zhou2017scene,
    title={Scene Parsing through ADE20K Dataset},
    author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
    year={2017}
}

@article{zhou2016semantic,
  title={Semantic understanding of scenes through the ade20k dataset},
  author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
  journal={arXiv preprint arXiv:1608.05442},
  year={2016}
}

贡献

感谢 @mariosasko 添加了这个数据集。