数据集:
ucberkeley-dlab/measuring-hate-speech
任务:
文本分类语言:
en计算机处理:
monolingual批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2009.10277许可:
cc-by-4.0这是肯尼迪等人(2020)和萨奇德瓦等人(2022)描述的数据集的公开版本,由7912个注释者对39565条评论进行了标注,共计135556行。主要的结果变量是“仇恨言论分数”,但是这10个组成部分的有序标签(情感、(不)尊重、侮辱、羞辱、低人一等、暴力、人格侮辱、种族灭绝、攻击/防御、仇恨言论基准)也可以视为结果。包括8个目标身份群体(种族/族裔、宗教、国籍/公民身份、性别、性取向、年龄、残疾、政治意识形态)和42个目标身份子群体,以及6个注释者人口统计学数据和40个子群体。仇恨言论分数通过估计注释指南的解释差异,包括IRT调整。
这个数据集卡片是一个正在进行的工作,会随时间改进。
可以使用以下Python代码下载数据集:
import datasets dataset = datasets.load_dataset('ucberkeley-dlab/measuring-hate-speech', 'binary') df = dataset['train'].to_pandas() df.describe()
@article{kennedy2020constructing, title={Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application}, author={Kennedy, Chris J and Bacon, Geoff and Sahn, Alexander and von Vacano, Claudia}, journal={arXiv preprint arXiv:2009.10277}, year={2020} }
数据集由 @ck37 、 @pssachdeva 等人整理。
Kennedy, C. J., Bacon, G., Sahn, A., & von Vacano, C. (2020). Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application . arXiv预印本arXiv:2009.10277.
Pratik Sachdeva, Renata Barreto, Geoff Bacon, Alexander Sahn, Claudia von Vacano, and Chris Kennedy. 2022. The Measuring Hate Speech Corpus: Leveraging Rasch Measurement Theory for Data Perspectivism . 《Proceedings of the 1st Workshop on Perspectivist Approaches to NLP @LREC2022》第83-94页,马赛,法国。欧洲语言资源协会。