数据集:

jordanparker6/publaynet

任务:

图生文

语言:

en

大小:

100B<n<1T

预印本库:

arxiv:1908.07836

许可:

other
英文

PubLayNet

PubLayNet是一个大型的文档图像数据集,其中的布局注释包括边界框和多边形分割。文档的来源是 PubMed Central Open Access Subset (commercial use collection) 。注释是通过匹配PubMed Central开放获取子集中的文章的PDF格式和XML格式而自动生成的。更多详细信息可以在我们的论文 "PubLayNet: largest dataset ever for document layout analysis." 中找到。

公共数据集以tar.gz格式提供,不适用于huggingface streaming。我们已经对数据集进行了修改,以优化数据集在huggingface数据集API中的传送。原始文件可以在 here 中找到。

许可证: Community Data License Agreement – Permissive – Version 1.0 License

作者:IBM

GitHub: https://github.com/ibm-aur-nlp/PubLayNet

@article{ zhong2019publaynet,title = { PubLayNet:用于文档布局分析的最大数据集 }, author = { Zhong, Xu and Tang, Jianbin and Yepes, Antonio Jimeno }, journal = { arXiv预印本arXiv:1908.07836 }, year = { 2019 }}