数据集:

tweets_hate_speech_detection

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

许可:

gpl-3.0
英文

Tweets仇恨言论检测的数据集卡片

数据集概要

本任务的目标是检测推特上的仇恨言论。为了简化起见,我们认为如果推文中带有种族主义或性别主义情绪,则该推文包含仇恨言论。因此,任务是将种族主义或性别主义的推文分类为其他推文。

形式上,给定一组推文和标签的训练样本,其中标签'1'表示推文是种族主义/性别主义的,标签'0'表示推文不是种族主义/性别主义的,您的目标是预测给定测试数据集上的标签。

支持的任务和排行榜

[需要更多信息]

语言

推文主要使用英语。

数据集结构

数据实例

数据集包含一个标签,表示推文是否为仇恨言论

{'label': 0,  # not a hate speech
 'tweet': ' @user when a father is dysfunctional and is so selfish he drags his kids into his dysfunction.   #run'}

数据字段

  • 标签:1-仇恨言论,0-非仇恨言论。
  • 推文:推文的内容作为字符串。

数据拆分

数据包含训练数据:31962条记录

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

众包从推特用户

谁是源语言的生产者?

从推特上众包获得

标注

标注过程

数据已经预处理,训练了一个模型来为推文分配相关的标签

谁是标注者?

数据由Roshan Sharma提供

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

借助这个数据集,我们可以更多地了解人类的情感,并分析某人在特定情况下使用仇恨/种族主义言论的意图

偏见讨论

数据可以进一步清理以用于其他用途,例如应用更好的特征提取技术

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Roshan Sharma

许可信息

Information

引用信息

Citation

贡献

感谢 @darshan-gandhi 添加了这个数据集。