衡量仇恨言论的数据集卡片

这是肯尼迪等人（2020）和萨奇德瓦等人（2022）描述的数据集的公开版本，由7912个注释者对39565条评论进行了标注，共计135556行。主要的结果变量是“仇恨言论分数”，但是这10个组成部分的有序标签（情感、（不）尊重、侮辱、羞辱、低人一等、暴力、人格侮辱、种族灭绝、攻击/防御、仇恨言论基准）也可以视为结果。包括8个目标身份群体（种族/族裔、宗教、国籍/公民身份、性别、性取向、年龄、残疾、政治意识形态）和42个目标身份子群体，以及6个注释者人口统计学数据和40个子群体。仇恨言论分数通过估计注释指南的解释差异，包括IRT调整。

这个数据集卡片是一个正在进行的工作，会随时间改进。

关键数据集列

hate_speech_score - 连续的仇恨言论度量，其中较高的值表示更仇恨，较低的值表示较少的仇恨。 > 0.5大致是仇恨言论，< -1是反或支持性言论，-1到+0.5是中性或含糊不清的。
text - 轻度处理的社交媒体帖子的文本内容
comment_id - 每条评论的唯一ID
annotator_id - 每个注释者的唯一ID
sentiment - 合并到连续分数中的有序标签
respect - 合并到连续分数中的有序标签
insult - 合并到连续分数中的有序标签
humiliate - 合并到连续分数中的有序标签
status - 合并到连续分数中的有序标签
dehumanize - 合并到连续分数中的有序标签
violence - 合并到连续分数中的有序标签
genocide - 合并到连续分数中的有序标签
attack_defend - 合并到连续分数中的有序标签
hatespeech - 合并到连续分数中的有序标签
annotator_severity - 注释者估计的调查解释偏差

下载代码

可以使用以下Python代码下载数据集：

import datasets 
dataset = datasets.load_dataset('ucberkeley-dlab/measuring-hate-speech', 'binary')   
df = dataset['train'].to_pandas()
df.describe()

引用文献

@article{kennedy2020constructing,
  title={Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application},
  author={Kennedy, Chris J and Bacon, Geoff and Sahn, Alexander and von Vacano, Claudia},
  journal={arXiv preprint arXiv:2009.10277},
  year={2020}
}

贡献者

数据集由 @ck37 、 @pssachdeva 等人整理。

参考文献

Kennedy, C. J., Bacon, G., Sahn, A., & von Vacano, C. (2020). Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application . arXiv预印本arXiv:2009.10277.

Pratik Sachdeva, Renata Barreto, Geoff Bacon, Alexander Sahn, Claudia von Vacano, and Chris Kennedy. 2022. The Measuring Hate Speech Corpus: Leveraging Rasch Measurement Theory for Data Perspectivism . 《Proceedings of the 1st Workshop on Perspectivist Approaches to NLP @LREC2022》第83-94页，马赛，法国。欧洲语言资源协会。

作者:

ucberkeley-dlab

数据集大小:

13.47 MB