数据集:

pierreguillou/DocLayNet-base

英文

DocLayNet基础数据集卡片

关于本卡片(01/27/2023)

属性和许可证

除了其他段落“关于本卡片(01/27/2023)”的内容外,此页面的所有信息均已从 Dataset Card for DocLayNet 复制/粘贴而来。

DocLayNet是由Deep Search(IBM研究部门)创建的数据集,根据 license CDLA-Permissive-1.0 发布。

我不对从该数据集中提取并发布在本页上的数据拥有任何权利。

DocLayNet数据集

IBM的 DocLayNet dataset 提供了80863个唯一页面的11个不同类别标签的页面布局分割基本事实,并使用边界框。页面来自6个文档类别。

目前可以通过直接链接或作为数据集从Hugging Face获取数据集:

文献: DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis (06/02/2022)

处理成HF笔记本易于使用的格式

这两个选项需要下载所有数据(约30GBi),这需要下载时间(在Google Colab中约45分钟)和大量的硬盘空间。这可能会限制资源有限的人的实验。

此外,即使使用通过HF数据集库下载,也需要单独下载EXTRA zip( doclaynet_extra.zip ,7.5 GiB),以将OCR从PDF中提取的文本与注释的边界框关联起来。此操作还需要额外的代码,因为文本的边界框不一定与注释的边界框相对应(通过计算注释的边界框与文本的边界框之间的共同区域的百分比,可以进行比较)。

最后,为了在Fine-tuning布局模型(如LayoutLMv3或LiLT)上使用Hugging Face笔记本,必须以适当的格式处理DocLayNet数据。

出于所有这些原因,我决定处理DocLayNet数据集:

  • 分为3个不同大小的数据集:
    • DocLayNet small (DocLayNet的约1%)<1.000k个文档图像(691个训练,64个验证,49个测试)
    • DocLayNet base (DocLayNet的约10%)<10.000k个文档图像(6910个训练,648个验证,499个测试)
    • DocLayNet large (DocLayNet的约100%)<100.000k个文档图像(69.103个训练,6.480个验证,4.994个测试)
  • 附带的文本和PDF(base64格式),
  • 以及格式方便其在HF笔记本中使用。

注意:HF笔记本将极大地帮助IBM ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents 的参与者!

关于PDF语言

引用 DocLayNet paper 第3页:“我们在选择文档时没有考虑语言因素。 DocLayNet中的绝大多数文档(接近95%)以英文发布。然而,DocLayNet还包含其他语言的一些文档,例如德语(2.5%),法语(1.0%)和日语(1.0%)。尽管文档语言对计算机视觉方法(如物体检测和分割模型)的性能影响很小,但对于利用文本特征的布局分析方法可能具有挑战性。”

关于PDF类别分布

引用 DocLayNet paper 第3页:“DocLayNet中的页面可以分为六个不同类别,包括财务报告,手册,科学文章,法律法规,专利和政府招标。每个文档类别来自各种库。例如,财务报告包含公司特定的自由格式年报和较正式的SEC文件。两个最大的类别(财务报告和手册)包含大量的自由样式布局,以获得最大的变化性。在其他四个类别中,我们通过混合来自独立提供者(如不同的政府网站或出版商)的文档来增加可变性。在图2中,我们展示了包含DocLayNet中文档类别及其各自大小的文档类别。”

下载和概述

DocLayNet小型的大小约为DocLayNet数据集的10%(分别在训练,验证和测试文件中随机选择)。

# !pip install -q datasets

from datasets import load_dataset

dataset_base = load_dataset("pierreguillou/DocLayNet-base")

# overview of dataset_base

DatasetDict({
    train: Dataset({
        features: ['id', 'texts', 'bboxes_block', 'bboxes_line', 'categories', 'image', 'pdf', 'page_hash', 'original_filename', 'page_no', 'num_pages', 'original_width', 'original_height', 'coco_width', 'coco_height', 'collection', 'doc_category'],
        num_rows: 6910
    })
    validation: Dataset({
        features: ['id', 'texts', 'bboxes_block', 'bboxes_line', 'categories', 'image', 'pdf', 'page_hash', 'original_filename', 'page_no', 'num_pages', 'original_width', 'original_height', 'coco_width', 'coco_height', 'collection', 'doc_category'],
        num_rows: 648
    })
    test: Dataset({
        features: ['id', 'texts', 'bboxes_block', 'bboxes_line', 'categories', 'image', 'pdf', 'page_hash', 'original_filename', 'page_no', 'num_pages', 'original_width', 'original_height', 'coco_width', 'coco_height', 'collection', 'doc_category'],
        num_rows: 499
    })
})

注释的边界框

DocLayNet base使得能够轻松显示带有段落或行的文档图像的注释边界框。

请参阅笔记本 processing_DocLayNet_dataset_to_be_used_by_layout_models_of_HF_hub.ipynb 以获取代码。

段落

HF笔记本

数据集摘要

DocLayNet提供了80863个唯一页面的11个不同类别标签的页面布局分割的ground-truth,使用边界框进行标注。它与PubLayNet或DocBank等相关工作相比,提供了几个独特的特点:

  • 人工注释:DocLayNet由训练有素的专家手动注释,通过人工识别和解释每个页面布局为布局分割提供了黄金标准
  • 大量布局变异性:DocLayNet包括来自金融,科学,专利,招标,法律文本和手册等各种公共来源的多样化和复杂化的布局
  • 详细标签集:DocLayNet定义了11个类别标签,以高细节区分布局特征
  • 冗余注释:DocLayNet中的部分页面是双重或三重注释的,可以估计注释的不确定性和使用ML模型可以实现的预测准确性的上限
  • 预定义的训练-测试和验证集:DocLayNet为每个集提供固定的集,以确保按比例表示类别标签,并避免在集合之间泄漏唯一布局样式
  • 支持的任务和Leaderboards

    我们正在ICDAR 2023上基于DocLayNet数据集举办竞赛。有关更多信息,请参见 https://ds4sd.github.io/icdar23-doclaynet/

    数据集结构

    数据字段

    DocLayNet提供四种类型的数据资产:

  • 所有页面的PNG图像,调整为正方形1025 x 1025px
  • 每个PNG图像的COCO格式边界框注释
  • 配套的单页PDF文件与每个PNG图像匹配
  • 配套的JSON文件与PDF页匹配,提供带有坐标和内容的数字文本单元格
  • COCO图像记录的定义如下示例

        ...
        {
          "id": 1,
          "width": 1025,
          "height": 1025,
          "file_name": "132a855ee8b23533d8ae69af0049c038171a06ddfcac892c3c6d7e6b4091c642.png",
    
          // Custom fields:
          "doc_category": "financial_reports" // high-level document category
          "collection": "ann_reports_00_04_fancy", // sub-collection name
          "doc_name": "NASDAQ_FFIN_2002.pdf", // original document filename
          "page_no": 9, // page number in original document
          "precedence": 0, // Annotation order, non-zero in case of redundant double- or triple-annotation
        },
        ...
    

    doc_category字段使用以下常量之一:

    financial_reports,
    scientific_articles,
    laws_and_regulations,
    government_tenders,
    manuals,
    patents
    

    数据拆分

    数据集提供三个拆分

    • 训练
    • 验证
    • 测试

    数据集创建

    注释

    注释流程

    用于训练注释专家的标注指南可在 DocLayNet_Labeling_Guide_Public.pdf 中找到。

    注释者是谁?

    注释是众包完成的。

    其他信息

    数据集策展人

    该数据集由IBM研究部门的 Deep Search team 策展。您可以通过deepsearch-core@zurich.ibm.com与我们联系。

    策展人:

    授权信息

    许可证: CDLA-Permissive-1.0

    引用信息

    @article{doclaynet2022,
      title = {DocLayNet: A Large Human-Annotated Dataset for Document-Layout Segmentation},
      doi = {10.1145/3534678.353904},
      url = {https://doi.org/10.1145/3534678.3539043},
      author = {Pfitzmann, Birgit and Auer, Christoph and Dolfi, Michele and Nassar, Ahmed S and Staar, Peter W J},
      year = {2022},
      isbn = {9781450393850},
      publisher = {Association for Computing Machinery},
      address = {New York, NY, USA},
      booktitle = {Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining},
      pages = {3743–3751},
      numpages = {9},
      location = {Washington DC, USA},
      series = {KDD '22}
    }
    

    贡献

    感谢 @dolfim-ibm @cau-git 添加此数据集。