数据集:
Aisha/BAAD6
BAAD6是一种用于孟加拉文学的作者归属数据集。它由Hemayet等人收集和分析。数据是从不同的在线帖子和博客获取的。该数据集在6个作者之间平衡,并且每个作者有350个样本文本。这是一个相对较小的数据集,但由于其收集来源和清理过程,存在噪音。尽管如此,它可以帮助评估作者归属系统,因为它类似于互联网上经常出现的文本。有关数据集的详细信息请参见下表。
Author | Samples | Word count | Unique word |
---|---|---|---|
fe | 350 | 357k | 53k |
ij | 350 | 391k | 72k |
mk | 350 | 377k | 47k |
rn | 350 | 231k | 50k |
hm | 350 | 555k | 72k |
rg | 350 | 391k | 58k |
Total | 2,100 | 2,304,338 | 230,075 |
Average | 350 | 384,056.33 | 59,006.67 |
如果您使用该数据集,请引用该论文。
@INPROCEEDINGS{BAAD6Dataset, author={Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Islam, Md. Saiful}, booktitle={2018 21st International Conference of Computer and Information Technology (ICCIT)}, title={A Comparative Analysis of Word Embedding Representations in Authorship Attribution of Bengali Literature}, year={2018}, volume={}, number={}, pages={1-6}, doi={10.1109/ICCITECHN.2018.8631977} }
此数据集也可在Mendeley上找到。请务必使用数据集的最新版本。通过以下方式直接引用数据集:
@misc{BAAD6Dataset, author = {Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Khatun, Aisha and Islam, Md. Saiful}, title = {BAAD6: Bangla Authorship Attribution Dataset}, year={2018}, doi = {10.17632/w9wkd7g43f.5}, howpublished= {\url{https://data.mendeley.com/datasets/w9wkd7g43f/5}} }