数据集:

Aisha/BAAD6

英文

描述

BAAD6是一种用于孟加拉文学的作者归属数据集。它由Hemayet等人收集和分析。数据是从不同的在线帖子和博客获取的。该数据集在6个作者之间平衡,并且每个作者有350个样本文本。这是一个相对较小的数据集,但由于其收集来源和清理过程,存在噪音。尽管如此,它可以帮助评估作者归属系统,因为它类似于互联网上经常出现的文本。有关数据集的详细信息请参见下表。

Author Samples Word count Unique word
fe 350 357k 53k
ij 350 391k 72k
mk 350 377k 47k
rn 350 231k 50k
hm 350 555k 72k
rg 350 391k 58k
Total 2,100 2,304,338 230,075
Average 350 384,056.33 59,006.67

引用

如果您使用该数据集,请引用该论文。

@INPROCEEDINGS{BAAD6Dataset,
  author={Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Islam, Md. Saiful},
  booktitle={2018 21st International Conference of Computer and Information Technology (ICCIT)}, 
  title={A Comparative Analysis of Word Embedding Representations in Authorship Attribution of Bengali Literature}, 
  year={2018},
  volume={},
  number={},
  pages={1-6},
  doi={10.1109/ICCITECHN.2018.8631977}
  }

此数据集也可在Mendeley上找到。请务必使用数据集的最新版本。通过以下方式直接引用数据集:

@misc{BAAD6Dataset,
  author = {Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Khatun, Aisha and Islam, Md. Saiful},
  title = {BAAD6: Bangla Authorship Attribution Dataset},
  year={2018},
  doi = {10.17632/w9wkd7g43f.5},
  howpublished= {\url{https://data.mendeley.com/datasets/w9wkd7g43f/5}}
  }