数据集:
PlanTL-GOB-ES/cantemist-ner
手动分类的西班牙肿瘤临床病例报告集合。
包含1301份用西班牙语书写的肿瘤临床病例报告,其中肿瘤形态学提及由临床专家手动标注并映射到受控术语表达。每个肿瘤形态学提及都链接到eCIE-O代码(西班牙版的ICD-O)。
训练子集包含501个文档,开发子集包含500个,测试子集包含300个。原始数据集以 Brat 格式分发。
该数据集是为由 Plan-TL 赞助的癌症文本挖掘共享任务而设计的。
如需更多信息,请访问 the official website 。
命名实体识别(NER)
三个四列文件,每个文件对应一个拆分。
每个文件有4列:
El cc_onco101 662_664 O informe cc_onco101 665_672 O HP cc_onco101 673_675 O es cc_onco101 676_678 O compatible cc_onco101 679_689 O con cc_onco101 690_693 O adenocarcinoma cc_onco101 694_708 B-MORFOLOGIA_NEOPLASIA moderadamente cc_onco101 709_722 I-MORFOLOGIA_NEOPLASIA diferenciado cc_onco101 723_735 I-MORFOLOGIA_NEOPLASIA que cc_onco101 736_739 O afecta cc_onco101 740_746 O a cc_onco101 747_748 O grasa cc_onco101 749_754 O peripancreática cc_onco101 755_770 O sobrepasando cc_onco101 771_783 O la cc_onco101 784_786 O serosa cc_onco101 787_793 O , cc_onco101 793_794 O infiltración cc_onco101 795_807 O perineural cc_onco101 808_818 O . cc_onco101 818_819 O
Split | Size |
---|---|
train | 19,397 |
dev | 18,165 |
test | 11,168 |
为了与其他语言的类似数据集兼容,我们尽可能遵循现有的策划指南。
选择的临床病例报告与医院健康记录非常相似。为增加CANTEMIST语料库的实用性和实际关联性,我们选择了涉及各个性别的临床病例,并包含了各个年龄段的病例(从儿童到老年人)以及各个复杂程度的病例(实体肿瘤、血液肿瘤恶性肿瘤、神经内分泌肿瘤等)。
CANTEMIST的案例包括临床体征和症状、个人和家族史、当前疾病情况、体格检查、相关测试(血液检测、影像学、病理学)、诊断、治疗(包括化疗的不良反应)、病情演变和结局。
源语言生成者是谁?人类,没有机器生成的数据。
CANTEMIST语料库的手动注释由临床专家根据CANTEMIST指南执行(有关详细信息,请参考此 paper )。这些指南包含了标注西班牙肿瘤临床病例中形态学新生物的规则,以及将这些标注映射到eCIE-O的规则。
注释员(具有与癌症相关学科的博士学位的科学家)定期咨询医生,以解决最困难的病理表达式。同一位医生定期检查随机选择的已注释临床记录,并将这些注释与注释员进行比较和讨论。为了对一些非常复杂的病例进行归一化处理,与西班牙最大的大学医院之一的病理学专家进行了协商。
注释者是谁?临床专家。
不包含个人或敏感信息。
该语料库有助于发展西班牙语的医学语言模型。
不适用。
巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)。
如需更多信息,请发送电子邮件至(plantl-gob-es@bsc.es)。
该工作是在 Plan-TL 框架下由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 资助的。
该作品以 CC Attribution 4.0 International 许可证授权。
版权所有:西班牙数字化和人工智能国家秘书处(SEDIA)(2022)
@article{cantemist, title={Named Entity Recognition, Concept Normalization and Clinical Coding: Overview of the Cantemist Track for Cancer Text Mining in Spanish, Corpus, Guidelines, Methods and Results.}, author={Miranda-Escalada, Antonio and Farr{\'e}, Eul{\`a}lia and Krallinger, Martin}, journal={IberLEF@ SEPLN}, pages={303--323}, year={2020} }
[N/A]