数据集:
tomekkorbak/pile-pii-scrubadub
语言:
en计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
machine-generated源数据集:
extended|the_pile预印本库:
arxiv:2101.00027许可:
mit该数据集包含来自 The Pile 的文本,根据每个句子中的个人身份信息(PII)进行了注释。每个文档(数据集中的一行)被分割成句子,并给每个句子评分:根据 Scrubadub 将多少单词分类为PII的百分比。
[需要更多信息]
该数据集取自 The Pile ,即英文文本。
1949977
仅有训练集
这是来自 The Pile 的标注文本,一个大型的英文文本数据集。对PII进行标注是为了训练生成式语言模型以避免生成PII。
这是来自 The Pile 的标注文本。
资源语言的制作者是谁?请参考 The Pile 获取数据集的来源。
对于每个句子,使用 Scrubadub 进行检测:
该数据集包含 The Pile 中最初包含的所有PII,并对所有检测到的PII进行了标注。
该数据集包含真实PII的示例(在文本中方便地进行了注释!)。请注意避免滥用它或通过公开他们的信息使任何人处于危险之中。此数据集仅用于研究目的。我们无法保证已检测到所有PII,并且我们不能保证使用该数据训练的模型将避免生成PII。我们不建议部署在此数据上训练的模型。
该数据集包含The Pile中讨论的所有偏差: https://arxiv.org/abs/2101.00027
该数据集中的PII是使用不完美的自动检测方法检测出来的。我们不能保证标签的100%准确性。
来自 The Pile :PubMed Central: MIT License
待添加的论文信息