数据集:
jordanparker6/publaynet
PubLayNet是一个大型的文档图像数据集,其中的布局注释包括边界框和多边形分割。文档的来源是 PubMed Central Open Access Subset (commercial use collection) 。注释是通过匹配PubMed Central开放获取子集中的文章的PDF格式和XML格式而自动生成的。更多详细信息可以在我们的论文 "PubLayNet: largest dataset ever for document layout analysis." 中找到。
公共数据集以tar.gz格式提供,不适用于huggingface streaming。我们已经对数据集进行了修改,以优化数据集在huggingface数据集API中的传送。原始文件可以在 here 中找到。
许可证: Community Data License Agreement – Permissive – Version 1.0 License
作者:IBM
GitHub: https://github.com/ibm-aur-nlp/PubLayNet
@article{ zhong2019publaynet,title = { PubLayNet:用于文档布局分析的最大数据集 }, author = { Zhong, Xu and Tang, Jianbin and Yepes, Antonio Jimeno }, journal = { arXiv预印本arXiv:1908.07836 }, year = { 2019 }}