数据集:

bigbio/n2c2_2006_deid

语言:

en

计算机处理:

monolingual

许可:

other
英文

n2c2 2006去标识化数据集数据卡片

去标识化挑战的数据来自Partners Healthcare,并且仅包含医学出院小结。我们通过注释和用真实的替代值替换所有真实的PHI来准备挑战的数据。

根据上述定义,我们在两个阶段标记记录中真实的PHI。在第一个阶段,我们使用了自动系统31。在第二个阶段,我们手动验证了自动系统的输出。包括本科生、研究生和教授在内的三个注释人员对每个记录进行了三次手动处理。他们在标记和讨论不一致的PHI标签后进行了最终确定。

原始数据集没有为每个实体计算范围。这个加载程序中计算出范围,并保留与标签对应的最终文本。

引用信息

@article{uzuner2007evaluating,
    author = {
        Uzuner, Özlem and
        Luo, Yuan and
        Szolovits, Peter
    },
    title     = {Evaluating the State-of-the-Art in Automatic De-identification},
    journal   = {Journal of the American Medical Informatics Association},
    volume    = {14},
    number    = {5},
    pages     = {550-563},
    year      = {2007},
    month     = {09},
    url       = {https://doi.org/10.1197/jamia.M2444},
    doi       = {10.1197/jamia.M2444},
    eprint    = {https://academic.oup.com/jamia/article-pdf/14/5/550/2136261/14-5-550.pdf}
}