数据集:

jigsaw_toxicity_pred

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

other

批注创建人:

crowdsourced

源数据集:

original

许可:

cc0-1.0
英文

数据集卡片:[数据集名称]

数据集概述

讨论你关心的事情可能很困难。网络上滥用和骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见。平台在有效促进对话方面存在困难,导致许多社区限制或完全关闭用户评论。该数据集包含了大量的维基百科评论,这些评论已由人工评定员标记为有害行为。

支持的任务和排行榜

该数据集支持多标签分类任务

语言

评论是用英语编写的

数据集结构

数据实例

数据点由一条评论及其相关的多个标签组成。{'id': '02141412314', 'comment_text': '样本评论文本', 'toxic': 0, 'severe_toxic': 0, 'obscene': 0, 'threat': 0, 'insult': 0, 'identity_hate': 1}

数据字段

  • id:评论的标识符
  • comment_text:评论的文本内容
  • toxic:评论的分类标签,0表示非有害,1表示有害
  • severe_toxic:评论的分类标签,0表示非严重有害,1表示严重有害
  • obscene:评论的分类标签,0表示非淫秽,1表示淫秽
  • threat:评论的分类标签,0表示非威胁,1表示威胁
  • insult:评论的分类标签,0表示非侮辱,1表示侮辱
  • identity_hate:评论的分类标签,0表示非仇恨言论,1表示仇恨言论

数据集划分

数据集划分为训练集和测试集

数据集创建

策划理由

创建该数据集是为了帮助识别和遏制在线毒性事件。

源数据

数据收集和规范化

该数据集是维基百科评论的集合。

源语言制造者是谁?

[需要更多信息]

注释

注释流程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人隐私信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

如果评论中存在与咒骂、侮辱或亵渎有关的词语,无论作者的语气或意图如何(例如幽默/自嘲),该评论很可能会被分类为有害。这可能对已经脆弱的少数群体产生一些偏见。

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

"有毒评论分类"数据集以[CC0]协议发布,其中的评论文本受维基百科的[CC-SA-3.0]版权保护。

引用信息

没有引用信息。

贡献者

感谢 @Tigrex161 添加了该数据集。