数据集:
bigbio/n2c2_2014_deid
2014年i2b2 / UTHealth自然语言处理(NLP)共享任务包括两个轨道。其中之一是去标识化轨道,重点是识别纵向临床叙述中的受保护健康信息(PHI)。
轨道1:NER PHI
HIPAA要求患者的医疗记录中删除所有识别信息,以保护患者隐私。有18种保护健康信息(PHI)标识符的类别是关于患者或患者的亲属,雇主或家庭成员的信息,必须在文件被认为是去标识化之前删除。为了去标识化记录,每个文件都标记了PHI。所有的PHI都有一个XML标签,指示其类别和类型(如果适用)。根据本任务的目的,18个HIPAA类别被分为了6个主要类别和25个次类别。
@article{stubbs2015automated, title = {Automated systems for the de-identification of longitudinal clinical narratives: Overview of 2014 i2b2/UTHealth shared task Track 1}, journal = {Journal of Biomedical Informatics}, volume = {58}, pages = {S11-S19}, year = {2015}, issn = {1532-0464}, doi = {https://doi.org/10.1016/j.jbi.2015.06.007}, url = {https://www.sciencedirect.com/science/article/pii/S1532046415001173}, author = {Amber Stubbs and Christopher Kotfila and Özlem Uzuner} }