数据集:
pile-of-law/eoir_privacy
该数据集模拟了EOIR(美国移民法院执委会)决策的隐私标准。它旨在帮助学习上下文数据消除规则,以匿名化可能包含敏感上下文的爬取语言数据。
英语
{ "text":掩码段落, "label":填充掩码时是否使用伪名}
训练集75%,验证集25%
该数据集模拟了EOIR决策的隐私标准。它旨在帮助学习上下文数据消除规则,以匿名化可能包含敏感上下文的爬取语言数据。
我们爬取EOIR。然后在段落级别进行过滤,并将任何涉及申请人、被告或姓名的引用替换为[MASK]标记。然后确定该案件是否使用了伪名。
谁是源语言的生产者?美国移民法院执委会
注释(即,使用伪名的决策)由EOIR法庭进行。我们使用正则表达式识别是否使用了伪名来指代申请人/被告。
谁是标注者?EOIR法官
可能涉及敏感上下文,法院已经确定了关于敏感数据的数据过滤,但仍可能讨论敏感主题。
该数据集旨在学习上下文隐私规则,帮助过滤私密/敏感数据,但本身包含了来自数据源法院的偏见。我们建议人们在学习更多上下文隐私规则时超越这些数据。
数据可能存在由于其源自美国移民法院而产生的偏见。
CC-BY-NC
@misc{hendersonkrass2022pileoflaw, url = {https://arxiv.org/abs/2207.00220}, author = {Henderson, Peter and Krass, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.}, title = {Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset}, publisher = {arXiv}, year = {2022} }