数据集:
bigbio/meddocan
MEDDOCAN: 医学文件匿名化任务
该数据集是针对MEDDOCAN任务而设计的,由语言技术推动计划赞助。
这是一个手动分类的收集了来自西班牙临床案例语料库(SPACCC)的1000份临床病例报告,并附有PHI表达式的数据集。
整个实体提及的注释工作由专家注释员进行,并包括与医学文档匿名化相关的29种实体类型。这些注释类型中实际上在语料库中有22种出现:TERRITORIO,FECHAS,EDAD_SUJETO_ASISTENCIA,NOMBRE_SUJETO_ASISTENCIA,NOMBRE_PERSONAL_SANITARIO,SEXO_SUJETO_ASISTENCIA,CALLE,PAIS,ID_SUJETO_ASISTENCIA,CORREO,ID_TITULACION_PERSONAL_SANITARIO,ID_ASEGURAMIENTO,HOSPITAL,FAMILIARES_SUJETO_ASISTENCIA,INSTITUCION,ID_CONTACTO ASISTENCIAL,NUMERO_TELEFONO,PROFESION,NUMERO_FAX,OTROS_SUJETO_ASISTENCIA,CENTRO_SALUD,ID_EMPLEO_PERSONAL_SANITARIO。
详细信息,请访问 https://temu.bsc.es/meddocan/ 或发送电子邮件至encargo-pln-life@bsc.es。
@inproceedings{marimon2019automatic, title={Automatic De-identification of Medical Texts in Spanish: the MEDDOCAN Track, Corpus, Guidelines, Methods and Evaluation of Results.}, author={Marimon, Montserrat and Gonzalez-Agirre, Aitor and Intxaurrondo, Ander and Rodriguez, Heidy and Martin, Jose Lopez and Villegas, Marta and Krallinger, Martin}, booktitle={IberLEF@ SEPLN}, pages={618--638}, year={2019} }