数据集:

aharley/rvl_cdip

任务:

图像分类

子任务:

multi-class-image-classification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

extended|iit_cdip

预印本库:

arxiv:1502.07058

许可:

other

数据集介绍文件清单

英文

RVL-CDIP数据集卡片

数据集概述

RVL-CDIP（Ryerson视觉实验室复杂文档信息处理）数据集包含16个类别的400,000张灰度图像，每个类别有25,000张图像。其中训练集包含320,000张图像，验证集包含40,000张图像，测试集包含40,000张图像。图像大小使得其最大尺寸不超过1000像素。

支持的任务和排行榜

图像分类：该任务的目标是将给定的文档分类为代表文档类型（信件、表格等）的16个类别之一。该任务的排行榜在 here 上可用。

语言

所有类别和文档都使用英语作为主要语言。

数据集结构

数据实例

下面是来自训练集的样本：

{
    'image': <PIL.TiffImagePlugin.TiffImageFile image mode=L size=754x1000 at 0x7F9A5E92CA90>,
    'label': 15
}

数据字段

image：包含文档的PIL.Image.Image对象。
label：整数分类标签。

类标签映射

{
  "0": "letter",
  "1": "form",
  "2": "email",
  "3": "handwritten",
  "4": "advertisement",
  "5": "scientific report",
  "6": "scientific publication",
  "7": "specification",
  "8": "file folder",
  "9": "news article",
  "10": "budget",
  "11": "invoice",
  "12": "presentation",
  "13": "questionnaire",
  "14": "resume",
  "15": "memo"
}

数据拆分

train	test	validation
# of examples	320000	40000	40000

数据集的拆分比例与ImageNet类似。

320,000张图像用于训练，
40,000张图像用于验证，
40,000张图像用于测试。

数据集创建

策划原因

引用文献中的原因：

这项工作提供了IIT-CDIP集合的一个新的标记子集，其中包含了16个类别的400,000个文档图像，可用于训练文档分析的新卷积神经网络。

源数据

初始数据收集和归一化

与IIT-CDIP集合中的相同。

数据源语言制作者是谁？

与IIT-CDIP集合中的相同。

注释

注释过程

与IIT-CDIP集合中的相同。

注释者是谁？

与IIT-CDIP集合中的相同。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

该数据集由Adam W. Harley、Alex Ufkes和Konstantinos G. Derpanis策划。

许可信息

RVL-CDIP是IIT-CDIP的一个子集，后者来自 Legacy Tobacco Document Library ，许可信息可以在 here 找到。

引用信息

@inproceedings{harley2015icdar,
    title = {Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval},
    author = {Adam W Harley and Alex Ufkes and Konstantinos G Derpanis},
    booktitle = {International Conference on Document Analysis and Recognition ({ICDAR})}},
    year = {2015}
}

贡献

感谢 @dnaveenr 添加了该数据集。

作者:

aharley

数据集大小:

36.12 GB