数据集:
Aisha/BAAD16
BAAD16是一份针对孟加拉文学的作者归属数据集。它是由 this paper 的作者收集和分析的。使用自定义网络爬虫从在线孟加拉语电子图书馆抓取的文本创建的,包含了多位著名的孟加拉作家的文学作品。它包含了小说、故事、系列和其他16位作者的作品。每个样本文档包含750个字。这个数据集是不平衡的,更贴近真实世界的情况,其中并不是所有的作者都有大量的样本文本。下表提供了有关数据集的更多详细信息。
Author Name | Number of Samples | Word Count | Unique Word |
---|---|---|---|
zahir rayhan | 185 | 138k | 20k |
nazrul | 223 | 167k | 33k |
manik bandhopaddhay | 469 | 351k | 44k |
nihar ronjon gupta | 476 | 357k | 43k |
bongkim | 562 | 421k | 62k |
tarashonkor | 775 | 581k | 84k |
shottojit roy | 849 | 636k | 67k |
shordindu | 888 | 666k | 84k |
toslima nasrin | 931 | 698k | 76k |
shirshendu | 1048 | 786k | 69k |
zafar iqbal | 1100 | 825k | 53k |
robindronath | 1259 | 944k | 89k |
shorotchandra | 1312 | 984k | 78k |
shomresh | 1408 | 1056k | 69k |
shunil gongopaddhay | 1963 | 1472k | 109k |
humayun ahmed | 4518 | 3388k | 161k |
Total | 17,966 | 13,474,500 | 590,660 |
Average | 1,122.875 | 842,156.25 | 71,822.25 |
如果您使用此数据集,请引用文献 Authorship Attribution in Bangla literature using Character-level CNN 和 Archive link 。
@inproceedings{BAAD16Dataset, title={Authorship Attribution in Bangla literature using Character-level CNN}, author={Khatun, Aisha and Rahman, Anisur and Islam, Md Saiful and others}, booktitle={2019 22nd International Conference on Computer and Information Technology (ICCIT)}, pages={1--5}, year={2019}, organization={IEEE} doi={10.1109/ICCIT48885.2019.9038560} }
这个数据集也在Mendeley上提供: BAAD16 dataset 。请确保使用最新版本的数据集。可以通过直接引用数据集来进行引用:
@misc{BAAD6Dataset, author = {Khatun, Aisha and Rahman, Anisur and Islam, Md. Saiful}, title = {BAAD16: Bangla Authorship Attribution Dataset}, year={2019}, doi = {10.17632/6d9jrkgtvv.4}, howpublished= {\url{https://data.mendeley.com/datasets/6d9jrkgtvv/4}} }