数据集:
bigbio/codiesp
这是一份由CLEF 2020会议的Clinical Case Coding in Spanish Shared Task提供的合成语料库,包含了1000个手动选择的西班牙语临床案例研究。
该任务的目标是自动为临床案例文档分配ICD10代码(西班牙语中的CIE-10),并与手动生成的ICD10编码进行评估。CodiEsp语料库由从业医生和临床文件工作者手动选择,并由符合严格质量标准的临床编码专业人员进行注释。他们在诊断编码上达到了88.6%的注释者一致性,手术编码上达到了88.9%的一致性,文本引用注释达到了80.5%的一致性。
最终的1000个临床案例集合中包含了16,504个句子和396,988个单词。所有文档均为西班牙语,并采用CIE10编码术语(ICD10-CM和ICD10-PCS的西班牙语版本)。CodiEsp语料库已随机分为三个子集。训练集包含500个临床案例,开发集和测试集各包含250个临床案例。此外,任务组织者还提供了包含176,294个Lilacs和Ibecs摘要及其相应ICD10编码(ICD10-CM和ICD10-PCS)的集合。每个摘要至少有一个关联的编码,平均每个摘要有2.5个ICD10代码。
CodiEsp赛道分为三个子赛道(2个主要和1个探索性):
欲了解更多信息,请访问 https://temu.bsc.es/codiesp 或发送电子邮件至encargo-pln-life@bsc.es。
@article{miranda2020overview, title={Overview of Automatic Clinical Coding: Annotations, Guidelines, and Solutions for non-English Clinical Cases at CodiEsp Track of CLEF eHealth 2020.}, author={Miranda-Escalada, Antonio and Gonzalez-Agirre, Aitor and Armengol-Estap{'e}, Jordi and Krallinger, Martin}, journal={CLEF (Working Notes)}, volume={2020}, year={2020} }