数据集:
tweets_hate_speech_detection
任务:
文本分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original许可:
gpl-3.0本任务的目标是检测推特上的仇恨言论。为了简化起见,我们认为如果推文中带有种族主义或性别主义情绪,则该推文包含仇恨言论。因此,任务是将种族主义或性别主义的推文分类为其他推文。
形式上,给定一组推文和标签的训练样本,其中标签'1'表示推文是种族主义/性别主义的,标签'0'表示推文不是种族主义/性别主义的,您的目标是预测给定测试数据集上的标签。
[需要更多信息]
推文主要使用英语。
数据集包含一个标签,表示推文是否为仇恨言论
{'label': 0, # not a hate speech 'tweet': ' @user when a father is dysfunctional and is so selfish he drags his kids into his dysfunction. #run'}
数据包含训练数据:31962条记录
[需要更多信息]
众包从推特用户
谁是源语言的生产者?从推特上众包获得
数据已经预处理,训练了一个模型来为推文分配相关的标签
谁是标注者?数据由Roshan Sharma提供
[需要更多信息]
借助这个数据集,我们可以更多地了解人类的情感,并分析某人在特定情况下使用仇恨/种族主义言论的意图
数据可以进一步清理以用于其他用途,例如应用更好的特征提取技术
[需要更多信息]
[需要更多信息]
Roshan Sharma
感谢 @darshan-gandhi 添加了这个数据集。