数据集:

ds4sd/DocLayNet

任务:

目标检测

图像分割

子任务:

instance-segmentation

大小:

10K<n<100K

批注创建人:

crowdsourced

其他:

layout-segmentation COCO document-understanding

许可:

other

数据集介绍文件清单

英文

DocLayNet 数据集卡片

数据集概述

DocLayNet 提供了80863个独特页面的逐页布局分割真实标注，使用边界框来标注11个不同类别的标签。与相关工作如PubLayNet或DocBank相比，它提供了几个独特的特点：

人工注释：DocLayNet由经过良好训练的专家进行手工注释，通过人类认知和解释来提供布局分割的黄金标准

大幅度的布局变化：DocLayNet包括来自金融、科学、专利、招标、法律文本和手册等多样化和复杂化的布局

详细的标签集：DocLayNet定义了11个类别的标签，以高精度区分布局特征

冗余注释：DocLayNet中的一部分页面进行了双重或三重注释，可用于估计注释不确定性，并获得基于机器学习模型可达到的预测准确度上限

预定义的训练、测试和验证集：DocLayNet为每个集合提供固定的数据集，确保各类别的比例表示，并避免在集合之间泄露独特的布局样式

支持的任务和排行榜

我们基于DocLayNet数据集举办了ICDAR 2023竞赛。更多信息请查看 https://ds4sd.github.io/icdar23-doclaynet/ 。

数据集结构

数据字段

DocLayNet提供了四种类型的数据资产：

所有页面的PNG图像，调整为1025 x 1025像素的正方形

每个PNG图像对应的COCO格式的边界框注释

额外：与每个PNG图像匹配的单页PDF文件

额外：与每个PDF页面匹配的JSON文件，提供了数字文本单元的坐标和内容

COCO图像记录的定义示例如下：

    ...
    {
      "id": 1,
      "width": 1025,
      "height": 1025,
      "file_name": "132a855ee8b23533d8ae69af0049c038171a06ddfcac892c3c6d7e6b4091c642.png",

      // Custom fields:
      "doc_category": "financial_reports" // high-level document category
      "collection": "ann_reports_00_04_fancy", // sub-collection name
      "doc_name": "NASDAQ_FFIN_2002.pdf", // original document filename
      "page_no": 9, // page number in original document
      "precedence": 0, // Annotation order, non-zero in case of redundant double- or triple-annotation
    },
    ...

doc_category字段使用以下常量之一：

financial_reports,
scientific_articles,
laws_and_regulations,
government_tenders,
manuals,
patents

数据划分

数据集提供了三个划分：

train
val
test

数据集创建

注释

注释过程

注释专家训练使用的标注指南可在 DocLayNet_Labeling_Guide_Public.pdf 中获取。

注释者是谁？

注释是众包完成的。

附加信息

数据集创建者

该数据集由IBM Research的 Deep Search team 策展。您可以通过 deepsearch-core@zurich.ibm.com 与我们联系。

策展者：

Christoph Auer, @cau-git
Michele Dolfi, @dolfim-ibm
Ahmed Nassar, @nassarofficial
Peter Staar, @PeterStaar-IBM

许可信息

许可证： CDLA-Permissive-1.0

引用信息

@article{doclaynet2022,
  title = {DocLayNet: A Large Human-Annotated Dataset for Document-Layout Segmentation},
  doi = {10.1145/3534678.353904},
  url = {https://doi.org/10.1145/3534678.3539043},
  author = {Pfitzmann, Birgit and Auer, Christoph and Dolfi, Michele and Nassar, Ahmed S and Staar, Peter W J},
  year = {2022},
  isbn = {9781450393850},
  publisher = {Association for Computing Machinery},
  address = {New York, NY, USA},
  booktitle = {Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining},
  pages = {3743–3751},
  numpages = {9},
  location = {Washington DC, USA},
  series = {KDD '22}
}

贡献者

感谢 @dolfim-ibm 和 @cau-git 添加了该数据集。

作者:

ds4sd

数据集大小:

21.27 KB