数据集:

roman_urdu_hate_speech

英文

roman_urdu_hate_speech 数据集卡片

数据集概述

Roman Urdu Hate-Speech and Offensive Language Detection (RUHSOLD) 数据集是一组由相关语言专家标注的罗马乌尔都(Roman Urdu)推文。作者为两个子任务开发了黄金标准。第一个子任务基于仇恨-攻击性内容和正常内容(即无冒犯性语言)的二元标签。这些标签是不言自明的。作者将此子任务称为粗粒度分类。第二个子任务以更精细的级别定义了具有四个标签的仇恨-攻击性内容。 这些标签与使用RU进行对话的用户人口统计学最相关,并在相关文献中进行了定义。作者将此子任务称为细粒度分类。创建两个黄金标准的目标是使研究人员能够在更容易(粗粒度)和更具挑战性(细粒度)的场景中评估仇恨言论检测方法。

支持的任务和排行榜

  • 'multi-class-classification','text-classification-other-binary classification':该数据集可用于多类别分类和二元分类,因为它包含粗粒度和细粒度标签。

语言

该数据集的文本为罗马乌尔都。相关的BCP-47代码是'ur'。

数据集结构

数据实例

该数据集由两个部分组成,分为粗粒度示例和细粒度示例。区别在于,粗粒度示例中的推文被标记为滥用或正常,而在细粒度版本中,推文与多个仇恨类别相关联。

对于数据集的粗粒度部分,标签映射为:- 任务1:粗粒度分类标签0:滥用/攻击性1:正常

而对于数据集的细粒度部分,标签映射为:- 任务2:细粒度分类标签0:滥用/攻击性1:正常2:宗教仇恨3:性别歧视4:亵渎/非定向

罗马乌尔都仇恨言论的示例如下:

{
  'tweet': 'there are some yahodi daboo like imran chore zakat khore'
  'label': 0
}

数据字段

-tweet:一个字符串,表示通过从50000个推文的基础中进行随机抽样选择10000个推文并进行注释而选择的推文。

-label:由三个独立标注者手动标注的注释,在注释过程中,所有冲突都通过三个标注者的多数投票解决。

数据拆分

每个部分的数据,粗粒度和细粒度,都进一步分为训练、验证和测试集。使用基于细粒度标签的分层分层策略对数据进行分层抽样。

保持所有拆分中相同的标签比例被认为是必要的。

最终拆分大小如下:

Train Valid Test7209 2003 801

数据集创建

策划理由

[需要更多信息]

数据来源

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

有偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集负责人

该数据集由Hammad Rizwan、Muhammad Haroon Shakeel和Asim Karim在巴基斯坦拉合尔大学计算机科学系(LUMS)期间创建。

许可信息

数据集的许可状态取决于 Roman Urdu Hate Speech Dataset Repository ,其根据 MIT 许可证获得许可。

引用信息

@inproceedings{rizwan2020hate,
  title={Hate-speech and offensive language detection in roman Urdu},
  author={Rizwan, Hammad and Shakeel, Muhammad Haroon and Karim, Asim},
  booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
  pages={2512--2522},
  year={2020}
}

贡献

感谢 @bp-high 添加此数据集。