数据集:
roman_urdu_hate_speech
任务:
文本分类语言:
ur计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original许可:
mitRoman Urdu Hate-Speech and Offensive Language Detection (RUHSOLD) 数据集是一组由相关语言专家标注的罗马乌尔都(Roman Urdu)推文。作者为两个子任务开发了黄金标准。第一个子任务基于仇恨-攻击性内容和正常内容(即无冒犯性语言)的二元标签。这些标签是不言自明的。作者将此子任务称为粗粒度分类。第二个子任务以更精细的级别定义了具有四个标签的仇恨-攻击性内容。 这些标签与使用RU进行对话的用户人口统计学最相关,并在相关文献中进行了定义。作者将此子任务称为细粒度分类。创建两个黄金标准的目标是使研究人员能够在更容易(粗粒度)和更具挑战性(细粒度)的场景中评估仇恨言论检测方法。
该数据集的文本为罗马乌尔都。相关的BCP-47代码是'ur'。
该数据集由两个部分组成,分为粗粒度示例和细粒度示例。区别在于,粗粒度示例中的推文被标记为滥用或正常,而在细粒度版本中,推文与多个仇恨类别相关联。
对于数据集的粗粒度部分,标签映射为:- 任务1:粗粒度分类标签0:滥用/攻击性1:正常
而对于数据集的细粒度部分,标签映射为:- 任务2:细粒度分类标签0:滥用/攻击性1:正常2:宗教仇恨3:性别歧视4:亵渎/非定向
罗马乌尔都仇恨言论的示例如下:
{ 'tweet': 'there are some yahodi daboo like imran chore zakat khore' 'label': 0 }
-tweet:一个字符串,表示通过从50000个推文的基础中进行随机抽样选择10000个推文并进行注释而选择的推文。
-label:由三个独立标注者手动标注的注释,在注释过程中,所有冲突都通过三个标注者的多数投票解决。
每个部分的数据,粗粒度和细粒度,都进一步分为训练、验证和测试集。使用基于细粒度标签的分层分层策略对数据进行分层抽样。
保持所有拆分中相同的标签比例被认为是必要的。
最终拆分大小如下:
Train Valid Test7209 2003 801
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集由Hammad Rizwan、Muhammad Haroon Shakeel和Asim Karim在巴基斯坦拉合尔大学计算机科学系(LUMS)期间创建。
数据集的许可状态取决于 Roman Urdu Hate Speech Dataset Repository ,其根据 MIT 许可证获得许可。
@inproceedings{rizwan2020hate, title={Hate-speech and offensive language detection in roman Urdu}, author={Rizwan, Hammad and Shakeel, Muhammad Haroon and Karim, Asim}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)}, pages={2512--2522}, year={2020} }
感谢 @bp-high 添加此数据集。