数据集:

tomekkorbak/pile-pii-scrubadub

任务:

文本分类

task_categories:other

子任务:

acceptability-classification text-scoring

语言:

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

machine-generated

源数据集:

extended|the_pile

预印本库:

arxiv:2101.00027

其他:

pii personal identifiable

许可:

mit

数据集介绍文件清单

英文

pile-pii-scrubadub 数据集卡片

数据集概要

该数据集包含来自 The Pile 的文本，根据每个句子中的个人身份信息（PII）进行了注释。每个文档（数据集中的一行）被分割成句子，并给每个句子评分：根据 Scrubadub 将多少单词分类为PII的百分比。

支持的任务和排行榜

[需要更多信息]

语言

该数据集取自 The Pile ，即英文文本。

数据集结构

数据实例

1949977

数据字段

texts（sequence）：文档中句子的列表（使用 SpaCy 进行分段）
meta（dict）：它所来源的 The Pile 的部分
scores（sequence）：texts列中每个句子的得分，指示被 Scrubadub 检测为PII的单词的百分比
avg_score（float64）：scores列中列出的得分的平均值
num_sents（int64）：该文档中句子（和得分）的数量

数据拆分

仅有训练集

数据集创建

策划理由

这是来自 The Pile 的标注文本，一个大型的英文文本数据集。对PII进行标注是为了训练生成式语言模型以避免生成PII。

源数据

初始数据收集和规范化

这是来自 The Pile 的标注文本。

资源语言的制作者是谁？

请参考 The Pile 获取数据集的来源。

注释

注释过程

对于每个句子，使用 Scrubadub 进行检测：

电子邮件地址
地址和邮政编码
电话号码
信用卡号码
美国社会安全号码
车牌号码
出生日期
URL
登录凭证

注释者是谁？

Scrubadub

个人和敏感信息

该数据集包含 The Pile 中最初包含的所有PII，并对所有检测到的PII进行了标注。

使用该数据的注意事项

数据的社会影响

该数据集包含真实PII的示例（在文本中方便地进行了注释！）。请注意避免滥用它或通过公开他们的信息使任何人处于危险之中。此数据集仅用于研究目的。我们无法保证已检测到所有PII，并且我们不能保证使用该数据训练的模型将避免生成PII。我们不建议部署在此数据上训练的模型。

数据偏差讨论

该数据集包含The Pile中讨论的所有偏差： https://arxiv.org/abs/2101.00027

其他已知限制

该数据集中的PII是使用不完美的自动检测方法检测出来的。我们不能保证标签的100％准确性。

其他信息

数据集策划者

The Pile

许可信息

来自 The Pile ：PubMed Central： MIT License

引用信息

待添加的论文信息

贡献

The Pile

作者:

tomekkorbak

数据集大小:

6.51 GB