数据集:

bigbio/meddocan

语言:

es

计算机处理:

monolingual

许可:

cc-by-4.0
英文

MEDDOCAN 数据集卡片

MEDDOCAN: 医学文件匿名化任务

该数据集是针对MEDDOCAN任务而设计的,由语言技术推动计划赞助。

这是一个手动分类的收集了来自西班牙临床案例语料库(SPACCC)的1000份临床病例报告,并附有PHI表达式的数据集。

整个实体提及的注释工作由专家注释员进行,并包括与医学文档匿名化相关的29种实体类型。这些注释类型中实际上在语料库中有22种出现:TERRITORIO,FECHAS,EDAD_SUJETO_ASISTENCIA,NOMBRE_SUJETO_ASISTENCIA,NOMBRE_PERSONAL_SANITARIO,SEXO_SUJETO_ASISTENCIA,CALLE,PAIS,ID_SUJETO_ASISTENCIA,CORREO,ID_TITULACION_PERSONAL_SANITARIO,ID_ASEGURAMIENTO,HOSPITAL,FAMILIARES_SUJETO_ASISTENCIA,INSTITUCION,ID_CONTACTO ASISTENCIAL,NUMERO_TELEFONO,PROFESION,NUMERO_FAX,OTROS_SUJETO_ASISTENCIA,CENTRO_SALUD,ID_EMPLEO_PERSONAL_SANITARIO。

详细信息,请访问 https://temu.bsc.es/meddocan/ 或发送电子邮件至encargo-pln-life@bsc.es。

引用信息

@inproceedings{marimon2019automatic,
  title={Automatic De-identification of Medical Texts in Spanish: the MEDDOCAN Track, Corpus, Guidelines, Methods and Evaluation of Results.},
  author={Marimon, Montserrat and Gonzalez-Agirre, Aitor and Intxaurrondo, Ander and Rodriguez, Heidy and Martin, Jose Lopez and Villegas, Marta and Krallinger, Martin},
  booktitle={IberLEF@ SEPLN},
  pages={618--638},
  year={2019}
}