数据集:

Aisha/BAAD16

英文

描述

BAAD16是一份针对孟加拉文学的作者归属数据集。它是由 this paper 的作者收集和分析的。使用自定义网络爬虫从在线孟加拉语电子图书馆抓取的文本创建的,包含了多位著名的孟加拉作家的文学作品。它包含了小说、故事、系列和其他16位作者的作品。每个样本文档包含750个字。这个数据集是不平衡的,更贴近真实世界的情况,其中并不是所有的作者都有大量的样本文本。下表提供了有关数据集的更多详细信息。

Author Name Number of Samples Word Count Unique Word
zahir rayhan 185 138k 20k
nazrul 223 167k 33k
manik bandhopaddhay 469 351k 44k
nihar ronjon gupta 476 357k 43k
bongkim 562 421k 62k
tarashonkor 775 581k 84k
shottojit roy 849 636k 67k
shordindu 888 666k 84k
toslima nasrin 931 698k 76k
shirshendu 1048 786k 69k
zafar iqbal 1100 825k 53k
robindronath 1259 944k 89k
shorotchandra 1312 984k 78k
shomresh 1408 1056k 69k
shunil gongopaddhay 1963 1472k 109k
humayun ahmed 4518 3388k 161k
Total 17,966 13,474,500 590,660
Average 1,122.875 842,156.25 71,822.25

引用

如果您使用此数据集,请引用文献 Authorship Attribution in Bangla literature using Character-level CNN Archive link

 @inproceedings{BAAD16Dataset,
  title={Authorship Attribution in Bangla literature using Character-level CNN},
  author={Khatun, Aisha and Rahman, Anisur and Islam, Md Saiful and others},
  booktitle={2019 22nd International Conference on Computer and Information Technology (ICCIT)},
  pages={1--5},
  year={2019},
  organization={IEEE}
  doi={10.1109/ICCIT48885.2019.9038560}
}

这个数据集也在Mendeley上提供: BAAD16 dataset 。请确保使用最新版本的数据集。可以通过直接引用数据集来进行引用:

@misc{BAAD6Dataset,
  author = {Khatun, Aisha and Rahman, Anisur and Islam, Md. Saiful},
  title = {BAAD16: Bangla Authorship Attribution Dataset},
  year={2019},
  doi = {10.17632/6d9jrkgtvv.4},
  howpublished= {\url{https://data.mendeley.com/datasets/6d9jrkgtvv/4}}
  }