数据集:

OxAISH-AL-LLM/wiki_toxic

英文

Wiki Toxic 数据集卡片

数据集摘要

Wiki Toxic 数据集是在 2017/18 年份的数据集的修改和清理版本。该数据集包含了从维基百科论坛中收集的评论,并将其分类为两个类别:toxic(有害)和non-toxic(无害)。

该 Kaggle 数据集使用了附带的 clean.py 脚本进行了清理。

支持的任务和排行榜

  • 文本分类:该数据集可用于训练模型,识别句子中的有害内容并进行分类。

语言

该数据集仅使用英语。

数据集结构

数据实例

每个数据点包含一个id,comment_text本身和一个标签(非有害为0,有害为1)。

数据字段

  • id: 每条评论的唯一标识符字符串
  • comment_text: 包含评论文本的字符串
  • label: 整数,如果评论是无害的则为0,如果评论是有害的则为1

数据拆分

Wiki Toxic 数据集有三个拆分:train,validation和test。每个拆分的统计数据如下:

数据集创建

策划理由

[需要更多信息]

源数据

Initial Data Collection and Normalization

[需要更多信息]

Who are the source language producers?

[需要更多信息]

注释

Annotation process

[需要更多信息]

Who are the annotators?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @github-username 添加了该数据集。