数据集:
tomekkorbak/pile-detoxify
语言:
en计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
machine-generated源数据集:
extended|the_pile许可:
mit此数据集包含来自 The Pile 的文本,根据每个句子的毒性进行注释。每个文档(数据集中的一行)被分割成句子,并为每个句子给出一个得分:通过 Detoxify 预测的毒性。
[需要更多信息]
此数据集来自 The Pile ,是英文文本。
1949977
仅有训练集
这是来自 The Pile 的标记文本,是一个包含大量英文文本的数据集。对文本进行毒性评分,以便训练生成性语言模型避免生成有害的文本。
这是来自 The Pile 的标记文本。
源语言生成者是谁?请参阅 The Pile 以获取数据集的来源。
使用 Detoxify 对每个句子进行了评分,它是一个有害评论分类器。我们使用了基于124M参数的 RoBERTa 的公正模型,并在 Jigsaw Unintended Bias in Toxicity Classification dataset 上进行了训练。
注释者是谁?此数据集包含最初包含在 The Pile 中的所有个人可识别信息和有毒文本。
此数据集包含有毒文本和个人可识别信息的示例。(标有个人可识别信息的版本是 available here 。)请小心避免滥用有毒文本或通过公开信息使任何人处于危险之中。此数据集仅用于研究目的。我们不能保证所有有毒文本都已被检测到,也不能保证使用该数据训练的模型将避免生成有毒文本。我们不建议部署在该数据上训练的模型。
此数据集包含The Pile中讨论的所有偏见。
使用不完善的自动检测方法检测到此数据集中的有毒文本。我们不能保证标签的100%准确性。
来自 The Pile :PubMed Central: MIT License
待添加论文信息