数据集:

aharley/rvl_cdip

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

extended|iit_cdip

预印本库:

arxiv:1502.07058

许可:

other
英文

RVL-CDIP数据集卡片

数据集概述

RVL-CDIP(Ryerson视觉实验室复杂文档信息处理)数据集包含16个类别的400,000张灰度图像,每个类别有25,000张图像。其中训练集包含320,000张图像,验证集包含40,000张图像,测试集包含40,000张图像。图像大小使得其最大尺寸不超过1000像素。

支持的任务和排行榜

  • 图像分类:该任务的目标是将给定的文档分类为代表文档类型(信件、表格等)的16个类别之一。该任务的排行榜在 here 上可用。

语言

所有类别和文档都使用英语作为主要语言。

数据集结构

数据实例

下面是来自训练集的样本:

{
    'image': <PIL.TiffImagePlugin.TiffImageFile image mode=L size=754x1000 at 0x7F9A5E92CA90>,
    'label': 15
}

数据字段

  • image:包含文档的PIL.Image.Image对象。
  • label:整数分类标签。
类标签映射
{
  "0": "letter",
  "1": "form",
  "2": "email",
  "3": "handwritten",
  "4": "advertisement",
  "5": "scientific report",
  "6": "scientific publication",
  "7": "specification",
  "8": "file folder",
  "9": "news article",
  "10": "budget",
  "11": "invoice",
  "12": "presentation",
  "13": "questionnaire",
  "14": "resume",
  "15": "memo"
}

数据拆分

train test validation
# of examples 320000 40000 40000

数据集的拆分比例与ImageNet类似。

  • 320,000张图像用于训练,
  • 40,000张图像用于验证,
  • 40,000张图像用于测试。

数据集创建

策划原因

引用文献中的原因:

这项工作提供了IIT-CDIP集合的一个新的标记子集,其中包含了16个类别的400,000个文档图像,可用于训练文档分析的新卷积神经网络。

源数据

初始数据收集和归一化

与IIT-CDIP集合中的相同。

数据源语言制作者是谁?

与IIT-CDIP集合中的相同。

注释

注释过程

与IIT-CDIP集合中的相同。

注释者是谁?

与IIT-CDIP集合中的相同。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

该数据集由Adam W. Harley、Alex Ufkes和Konstantinos G. Derpanis策划。

许可信息

RVL-CDIP是IIT-CDIP的一个子集,后者来自 Legacy Tobacco Document Library ,许可信息可以在 here 找到。

引用信息

@inproceedings{harley2015icdar,
    title = {Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval},
    author = {Adam W Harley and Alex Ufkes and Konstantinos G Derpanis},
    booktitle = {International Conference on Document Analysis and Recognition ({ICDAR})}},
    year = {2015}
}

贡献

感谢 @dnaveenr 添加了该数据集。