数据集:

bigbio/n2c2_2014_deid

语言:

en

计算机处理:

monolingual

许可:

other
英文

n2c2 2014去标识化数据集卡片

2014年i2b2 / UTHealth自然语言处理(NLP)共享任务包括两个轨道。其中之一是去标识化轨道,重点是识别纵向临床叙述中的受保护健康信息(PHI)。

轨道1:NER PHI

HIPAA要求患者的医疗记录中删除所有识别信息,以保护患者隐私。有18种保护健康信息(PHI)标识符的类别是关于患者或患者的亲属,雇主或家庭成员的信息,必须在文件被认为是去标识化之前删除。为了去标识化记录,每个文件都标记了PHI。所有的PHI都有一个XML标签,指示其类别和类型(如果适用)。根据本任务的目的,18个HIPAA类别被分为了6个主要类别和25个次类别。

引用信息

@article{stubbs2015automated,
title = {Automated systems for the de-identification of longitudinal
clinical narratives: Overview of 2014 i2b2/UTHealth shared task Track 1},
journal = {Journal of Biomedical Informatics},
volume = {58},
pages = {S11-S19},
year = {2015},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2015.06.007},
url = {https://www.sciencedirect.com/science/article/pii/S1532046415001173},
author = {Amber Stubbs and Christopher Kotfila and Özlem Uzuner}
}