数据集:

tweets_hate_speech_detection

任务:

文本分类

子任务:

sentiment-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

许可:

gpl-3.0

数据集介绍文件清单

英文

Tweets仇恨言论检测的数据集卡片

数据集概要

本任务的目标是检测推特上的仇恨言论。为了简化起见，我们认为如果推文中带有种族主义或性别主义情绪，则该推文包含仇恨言论。因此，任务是将种族主义或性别主义的推文分类为其他推文。

形式上，给定一组推文和标签的训练样本，其中标签'1'表示推文是种族主义/性别主义的，标签'0'表示推文不是种族主义/性别主义的，您的目标是预测给定测试数据集上的标签。

支持的任务和排行榜

[需要更多信息]

语言

推文主要使用英语。

数据集结构

数据实例

数据集包含一个标签，表示推文是否为仇恨言论

{'label': 0,  # not a hate speech
 'tweet': ' @user when a father is dysfunctional and is so selfish he drags his kids into his dysfunction.   #run'}

数据字段

标签：1-仇恨言论，0-非仇恨言论。
推文：推文的内容作为字符串。

数据拆分

数据包含训练数据：31962条记录

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

众包从推特用户

谁是源语言的生产者？

从推特上众包获得

标注

标注过程

数据已经预处理，训练了一个模型来为推文分配相关的标签

谁是标注者？

数据由Roshan Sharma提供

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

借助这个数据集，我们可以更多地了解人类的情感，并分析某人在特定情况下使用仇恨/种族主义言论的意图

偏见讨论

数据可以进一步清理以用于其他用途，例如应用更好的特征提取技术

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Roshan Sharma

许可信息

Information

引用信息

Citation

贡献

感谢 @darshan-gandhi 添加了这个数据集。

作者:

佚名

数据集大小:

11.47 KB