数据集:
jigsaw_toxicity_pred
任务:
文本分类语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
other批注创建人:
crowdsourced源数据集:
original许可:
cc0-1.0讨论你关心的事情可能很困难。网络上滥用和骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见。平台在有效促进对话方面存在困难,导致许多社区限制或完全关闭用户评论。该数据集包含了大量的维基百科评论,这些评论已由人工评定员标记为有害行为。
该数据集支持多标签分类任务
评论是用英语编写的
数据点由一条评论及其相关的多个标签组成。{'id': '02141412314', 'comment_text': '样本评论文本', 'toxic': 0, 'severe_toxic': 0, 'obscene': 0, 'threat': 0, 'insult': 0, 'identity_hate': 1}
数据集划分为训练集和测试集
创建该数据集是为了帮助识别和遏制在线毒性事件。
该数据集是维基百科评论的集合。
源语言制造者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
如果评论中存在与咒骂、侮辱或亵渎有关的词语,无论作者的语气或意图如何(例如幽默/自嘲),该评论很可能会被分类为有害。这可能对已经脆弱的少数群体产生一些偏见。
[需要更多信息]
[需要更多信息]
"有毒评论分类"数据集以[CC0]协议发布,其中的评论文本受维基百科的[CC-SA-3.0]版权保护。
没有引用信息。
感谢 @Tigrex161 添加了该数据集。