数据集:

pile-of-law/eoir_privacy

语言:

en

计算机处理:

monolingual

语言创建人:

found

预印本库:

arxiv:2207.00220
英文

eoir_privacy 数据集卡片

数据集简介

该数据集模拟了EOIR(美国移民法院执委会)决策的隐私标准。它旨在帮助学习上下文数据消除规则,以匿名化可能包含敏感上下文的爬取语言数据。

语言

英语

数据集结构

数据实例

{ "text":掩码段落, "label":填充掩码时是否使用伪名}

数据拆分

训练集75%,验证集25%

数据集创建

理由

该数据集模拟了EOIR决策的隐私标准。它旨在帮助学习上下文数据消除规则,以匿名化可能包含敏感上下文的爬取语言数据。

源数据

初始数据收集和规范化

我们爬取EOIR。然后在段落级别进行过滤,并将任何涉及申请人、被告或姓名的引用替换为[MASK]标记。然后确定该案件是否使用了伪名。

谁是源语言的生产者?

美国移民法院执委会

注释

注释过程

注释(即,使用伪名的决策)由EOIR法庭进行。我们使用正则表达式识别是否使用了伪名来指代申请人/被告。

谁是标注者?

EOIR法官

个人和敏感信息

可能涉及敏感上下文,法院已经确定了关于敏感数据的数据过滤,但仍可能讨论敏感主题。

使用数据的注意事项

数据集的社会影响

该数据集旨在学习上下文隐私规则,帮助过滤私密/敏感数据,但本身包含了来自数据源法院的偏见。我们建议人们在学习更多上下文隐私规则时超越这些数据。

偏见讨论

数据可能存在由于其源自美国移民法院而产生的偏见。

许可信息

CC-BY-NC

引用信息

@misc{hendersonkrass2022pileoflaw,
  url = {https://arxiv.org/abs/2207.00220},
  author = {Henderson, Peter and Krass, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.},
  title = {Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset},
  publisher = {arXiv},
  year = {2022}
}