数据集:

bigbio/codiesp

语言:

es

计算机处理:

monolingual

许可:

cc-by-4.0
英文

CodiEsp数据集卡片

这是一份由CLEF 2020会议的Clinical Case Coding in Spanish Shared Task提供的合成语料库,包含了1000个手动选择的西班牙语临床案例研究。

该任务的目标是自动为临床案例文档分配ICD10代码(西班牙语中的CIE-10),并与手动生成的ICD10编码进行评估。CodiEsp语料库由从业医生和临床文件工作者手动选择,并由符合严格质量标准的临床编码专业人员进行注释。他们在诊断编码上达到了88.6%的注释者一致性,手术编码上达到了88.9%的一致性,文本引用注释达到了80.5%的一致性。

最终的1000个临床案例集合中包含了16,504个句子和396,988个单词。所有文档均为西班牙语,并采用CIE10编码术语(ICD10-CM和ICD10-PCS的西班牙语版本)。CodiEsp语料库已随机分为三个子集。训练集包含500个临床案例,开发集和测试集各包含250个临床案例。此外,任务组织者还提供了包含176,294个Lilacs和Ibecs摘要及其相应ICD10编码(ICD10-CM和ICD10-PCS)的集合。每个摘要至少有一个关联的编码,平均每个摘要有2.5个ICD10代码。

CodiEsp赛道分为三个子赛道(2个主要和1个探索性):

  • CodiEsp-D:诊断编码子任务,要求自动分配ICD10-CM [CIE10-Diagnóstico]代码。
  • CodiEsp-P:手术编码子任务,要求自动分配ICD10-PCS [CIE10-Procedimiento]代码。
  • CodiEsp-X:可解释AI探索性子任务,要求提交对预测代码(ICD10-CM和ICD10-PCS)的引用。该任务的目标不仅是预测正确的代码,还要在文本中呈现支持代码预测的参考信息。

欲了解更多信息,请访问 https://temu.bsc.es/codiesp 或发送电子邮件至encargo-pln-life@bsc.es。

引用信息

@article{miranda2020overview,
  title={Overview of Automatic Clinical Coding: Annotations, Guidelines, and Solutions for non-English Clinical Cases at CodiEsp Track of CLEF eHealth 2020.},
  author={Miranda-Escalada, Antonio and Gonzalez-Agirre, Aitor and Armengol-Estap{'e}, Jordi and Krallinger, Martin},
  journal={CLEF (Working Notes)},
  volume={2020},
  year={2020}
}