数据集:

wkrl/cord

子任务:

parsing

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

许可:

cc-by-4.0
英文

CORD(综合收据数据集)的数据集卡片

数据集简介

[需要更多信息]

支持的任务和排行榜

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

{
  "id": datasets.Value("string"),
  "words": datasets.Sequence(datasets.Value("string")),
  "bboxes": datasets.Sequence(datasets.Sequence(datasets.Value("int64"))),
  "labels": datasets.Sequence(datasets.features.ClassLabel(names=_LABELS)),
  "images": datasets.features.Image(),
}

数据切分

  • 训练集(800行)
  • 验证集(100行)
  • 测试集(100行)

数据集创建

许可信息

Creative Commons Attribution 4.0 International License

引用信息

@article{park2019cord,
  title={CORD: A Consolidated Receipt Dataset for Post-OCR Parsing},
  author={Park, Seunghyun and Shin, Seung and Lee, Bado and Lee, Junyeop and Surh, Jaeheung and Seo, Minjoon and Lee, Hwalsuk}
  booktitle={Document Intelligence Workshop at Neural Information Processing Systems}
  year={2019}
}

贡献

感谢 @clovaai 添加此数据集。