数据集:

hate_speech18

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

[数据集名称]的数据集卡片

数据集摘要

这些文件包含从Stormfront获取的文本,Stormfront是一个白人至上主义者论坛。从多个子论坛中随机抽取了一组论坛帖子,并将其分成句子。根据特定的注释指南,这些句子已被手动标记为包含仇恨言论或不包含仇恨言论。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

[需要更多信息]

数据字段

  • text: 提供的句子
  • user_id: 使得重新构建包含这些句子的对话成为可能的信息
  • subforum_id: 使得重新构建包含这些句子的对话成为可能的信息
  • num_contexts: 注释者在做出有关句子类别的决定之前需要阅读的先前帖子数量
  • label: hate(仇恨),noHate(非仇恨),relation(句子本身不包含仇恨言论,但多个句子的组合包含),或idk/skip(不是用英语书写的句子,或者不包含可分类为仇恨或非仇恨的信息)

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据采集和规范化

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{gibert2018hate,
    title = "{Hate Speech Dataset from a White Supremacy Forum}",
    author = "de Gibert, Ona  and
      Perez, Naiara  and
      Garc{\'\i}a-Pablos, Aitor  and
      Cuadros, Montse",
    booktitle = "Proceedings of the 2nd Workshop on Abusive Language Online ({ALW}2)",
    month = oct,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/W18-5102",
    doi = "10.18653/v1/W18-5102",
    pages = "11--20",
}

贡献者

感谢 @czabo 添加了这个数据集。