数据集:

ucberkeley-dlab/measuring-hate-speech

英文

衡量仇恨言论的数据集卡片

这是肯尼迪等人(2020)和萨奇德瓦等人(2022)描述的数据集的公开版本,由7912个注释者对39565条评论进行了标注,共计135556行。主要的结果变量是“仇恨言论分数”,但是这10个组成部分的有序标签(情感、(不)尊重、侮辱、羞辱、低人一等、暴力、人格侮辱、种族灭绝、攻击/防御、仇恨言论基准)也可以视为结果。包括8个目标身份群体(种族/族裔、宗教、国籍/公民身份、性别、性取向、年龄、残疾、政治意识形态)和42个目标身份子群体,以及6个注释者人口统计学数据和40个子群体。仇恨言论分数通过估计注释指南的解释差异,包括IRT调整。

这个数据集卡片是一个正在进行的工作,会随时间改进。

关键数据集列

  • hate_speech_score - 连续的仇恨言论度量,其中较高的值表示更仇恨,较低的值表示较少的仇恨。 > 0.5大致是仇恨言论,< -1是反或支持性言论,-1到+0.5是中性或含糊不清的。
  • text - 轻度处理的社交媒体帖子的文本内容
  • comment_id - 每条评论的唯一ID
  • annotator_id - 每个注释者的唯一ID
  • sentiment - 合并到连续分数中的有序标签
  • respect - 合并到连续分数中的有序标签
  • insult - 合并到连续分数中的有序标签
  • humiliate - 合并到连续分数中的有序标签
  • status - 合并到连续分数中的有序标签
  • dehumanize - 合并到连续分数中的有序标签
  • violence - 合并到连续分数中的有序标签
  • genocide - 合并到连续分数中的有序标签
  • attack_defend - 合并到连续分数中的有序标签
  • hatespeech - 合并到连续分数中的有序标签
  • annotator_severity - 注释者估计的调查解释偏差

下载代码

可以使用以下Python代码下载数据集:

import datasets 
dataset = datasets.load_dataset('ucberkeley-dlab/measuring-hate-speech', 'binary')   
df = dataset['train'].to_pandas()
df.describe()

引用文献

@article{kennedy2020constructing,
  title={Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application},
  author={Kennedy, Chris J and Bacon, Geoff and Sahn, Alexander and von Vacano, Claudia},
  journal={arXiv preprint arXiv:2009.10277},
  year={2020}
}

贡献者

数据集由 @ck37 @pssachdeva 等人整理。

参考文献

Kennedy, C. J., Bacon, G., Sahn, A., & von Vacano, C. (2020). Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application . arXiv预印本arXiv:2009.10277.

Pratik Sachdeva, Renata Barreto, Geoff Bacon, Alexander Sahn, Claudia von Vacano, and Chris Kennedy. 2022. The Measuring Hate Speech Corpus: Leveraging Rasch Measurement Theory for Data Perspectivism . 《Proceedings of the 1st Workshop on Perspectivist Approaches to NLP @LREC2022》第83-94页,马赛,法国。欧洲语言资源协会。