数据集:
bn_hate_speech
任务:
文本分类语言:
bn计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found源数据集:
original预印本库:
arxiv:2004.07807许可:
mitBengali Hate Speech数据集是一个用孟加拉语编写的数据集,收集自不同的孟加拉媒体来源,并根据文本中的仇恨类型进行分类。该数据集的创建旨在为孟加拉语等资源匮乏的语言在自然语言处理任务上提供更大的支持,并作为多种分类任务的基准。
数据集中的文本是孟加拉语,相关的BCP-47代码是 bn 。
数据实例采用新闻文章及其相关标签的形式。
?注意以下示例包含极其冒犯的内容!
示例如下:
{"text": "রেন্ডিয়াকে পৃথীবির মানচিএ থেকে মুচে ফেলতে হবে", "label": "Geopolitical"}
该数据集有3418个示例。
孟加拉语等资源匮乏的语言缺少像英语这样的支持资源。该数据集从多个孟加拉语新闻来源中收集,为仇恨言论检测、文档分类和情感分析提供了若干分类基准。
孟加拉语文章是从孟加拉语维基百科转储、孟加拉语新闻文章、电视频道的新闻转储、书籍、博客、体育门户网站和社交媒体收集的。重点放在Facebook页面和报纸来源上,因为它们拥有约5000万粉丝,是普遍存在观点和仇恨言论来源。完整数据集包含2.5亿篇文章,目前正在准备中。这是完整数据集的一个子集。
谁是源语言制作者?源语言制作者是孟加拉语作者和使用这些各种形式的孟加拉语媒体的用户。
数据经过人工识别频繁出现在包含仇恨言论和对特定实体的引用的文本中的术语来进行注释。作者还准备了175个滥用术语的标准化频率向量,这些术语通常用于表达仇恨言论。如果文本中至少存在其中一个术语,则分配仇恨标签。为了做出决策,注释者只提供了无偏见的文本内容。非仇恨性陈述从列表中删除,仇恨的类别进一步被分成政治、个人、性别辱骂、地缘政治和宗教五类。为了减少可能的偏差,每个标签都是基于注释者意见的多数投票来分配的,并计算Cohen's Kappa来衡量注释者间的一致性。
谁是注释者?三名孟加拉语本土人和两名语言学家对数据进行了注释,然后由三位专家(一位南亚语言学家和两位母语使用者)进行了审查和验证。
数据集中包含了涉及宗教、政治和性别的非常敏感和极具攻击性的评论。其中一些评论是针对当代公众人物,如政治家、宗教领袖、名人和运动员。
数据集的目的是改善孟加拉语的仇恨言论检测。社交媒体的发展使人们能够自由地在线表达仇恨,因此在像英语这样的资源丰富的语言中,检测仇恨言论成为关注的焦点。使用仇恨言论非常普遍,就像其他任何主要语言一样,这可能会产生严重和致命的后果。对仇恨言论不予反击会使被针对的少数族群更容易受到攻击,并可能导致大多数人对待他们的态度变得漠不关心。
该数据集是使用引导式方法收集的。首先搜索特定类型的文本、文章和包含针对某些特征的常见骚扰的推文。因此,该数据集包含非常具有冒犯性的内容,令人不安。此外,重点强调Facebook页面和报纸来源,因为它们因存在仇恨和骚扰问题而出名。
该数据集包含种族主义、性别歧视、恐同和冒犯性评论。它只用于研究目的的收集和注释。
该数据集由Md.以下是Karim, Sumon Kanti Dey, Bharathi Raja Chakravarthi, John McCrae和Michael Cochez。
该数据集根据MIT许可证进行许可。
@inproceedings{karim2020BengaliNLP, title={Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network}, author={Karim, Md. Rezaul and Chakravarti, Bharathi Raja and P. McCrae, John and Cochez, Michael}, booktitle={7th IEEE International Conference on Data Science and Advanced Analytics (IEEE DSAA,2020)}, publisher={IEEE}, year={2020} }
感谢 @stevhliu 添加了该数据集。