数据集:
OxAISH-AL-LLM/wiki_toxic
任务:
文本分类语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
crowdsourced源数据集:
extended|other许可:
cc0-1.0Wiki Toxic 数据集是在 2017/18 年份的数据集的修改和清理版本。该数据集包含了从维基百科论坛中收集的评论,并将其分类为两个类别:toxic(有害)和non-toxic(无害)。
该 Kaggle 数据集使用了附带的 clean.py 脚本进行了清理。
该数据集仅使用英语。
每个数据点包含一个id,comment_text本身和一个标签(非有害为0,有害为1)。
Wiki Toxic 数据集有三个拆分:train,validation和test。每个拆分的统计数据如下:
[需要更多信息]
[需要更多信息]
Who are the source language producers?[需要更多信息]
[需要更多信息]
Who are the annotators?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @github-username 添加了该数据集。