数据集:
bigbio/n2c2_2006_deid
去标识化挑战的数据来自Partners Healthcare,并且仅包含医学出院小结。我们通过注释和用真实的替代值替换所有真实的PHI来准备挑战的数据。
根据上述定义,我们在两个阶段标记记录中真实的PHI。在第一个阶段,我们使用了自动系统31。在第二个阶段,我们手动验证了自动系统的输出。包括本科生、研究生和教授在内的三个注释人员对每个记录进行了三次手动处理。他们在标记和讨论不一致的PHI标签后进行了最终确定。
原始数据集没有为每个实体计算范围。这个加载程序中计算出范围,并保留与标签对应的最终文本。
@article{uzuner2007evaluating, author = { Uzuner, Özlem and Luo, Yuan and Szolovits, Peter }, title = {Evaluating the State-of-the-Art in Automatic De-identification}, journal = {Journal of the American Medical Informatics Association}, volume = {14}, number = {5}, pages = {550-563}, year = {2007}, month = {09}, url = {https://doi.org/10.1197/jamia.M2444}, doi = {10.1197/jamia.M2444}, eprint = {https://academic.oup.com/jamia/article-pdf/14/5/550/2136261/14-5-550.pdf} }