数据集:

PlanTL-GOB-ES/cantemist-ner

英文

CANTEMIST

数据集描述

手动分类的西班牙肿瘤临床病例报告集合。

数据集摘要

包含1301份用西班牙语书写的肿瘤临床病例报告,其中肿瘤形态学提及由临床专家手动标注并映射到受控术语表达。每个肿瘤形态学提及都链接到eCIE-O代码(西班牙版的ICD-O)。

训练子集包含501个文档,开发子集包含500个,测试子集包含300个。原始数据集以 Brat 格式分发。

该数据集是为由 Plan-TL 赞助的癌症文本挖掘共享任务而设计的。

如需更多信息,请访问 the official website

支持的任务

命名实体识别(NER)

语言

  • 西班牙语(es)

目录结构

  • README.md
  • cantemist.py
  • train.conll
  • dev.conll
  • test.conll

数据集结构

数据实例

三个四列文件,每个文件对应一个拆分。

数据字段

每个文件有4列:

  • 第一列:单词形式或标点符号
  • 第二列:原始BRAT文件名
  • 第三列:范围
  • 第四列:IOB标记
示例
El                  cc_onco101    662_664    O
informe             cc_onco101    665_672    O
HP                  cc_onco101    673_675    O
es                  cc_onco101    676_678    O
compatible          cc_onco101    679_689    O
con                 cc_onco101    690_693    O
adenocarcinoma      cc_onco101    694_708    B-MORFOLOGIA_NEOPLASIA
moderadamente       cc_onco101    709_722    I-MORFOLOGIA_NEOPLASIA
diferenciado        cc_onco101    723_735    I-MORFOLOGIA_NEOPLASIA
que                 cc_onco101    736_739    O
afecta              cc_onco101    740_746    O
a                   cc_onco101    747_748    O
grasa               cc_onco101    749_754    O
peripancreática     cc_onco101    755_770    O
sobrepasando        cc_onco101    771_783    O
la                  cc_onco101    784_786    O
serosa              cc_onco101    787_793    O
,                   cc_onco101    793_794    O
infiltración        cc_onco101    795_807    O
perineural          cc_onco101    808_818    O
.                   cc_onco101    818_819    O

数据拆分

Split Size
train 19,397
dev 18,165
test 11,168

数据集创建

策划原因

为了与其他语言的类似数据集兼容,我们尽可能遵循现有的策划指南。

源数据

初始数据收集和归一化

选择的临床病例报告与医院健康记录非常相似。为增加CANTEMIST语料库的实用性和实际关联性,我们选择了涉及各个性别的临床病例,并包含了各个年龄段的病例(从儿童到老年人)以及各个复杂程度的病例(实体肿瘤、血液肿瘤恶性肿瘤、神经内分泌肿瘤等)。

CANTEMIST的案例包括临床体征和症状、个人和家族史、当前疾病情况、体格检查、相关测试(血液检测、影像学、病理学)、诊断、治疗(包括化疗的不良反应)、病情演变和结局。

源语言生成者是谁?

人类,没有机器生成的数据。

注释

注释过程

CANTEMIST语料库的手动注释由临床专家根据CANTEMIST指南执行(有关详细信息,请参考此 paper )。这些指南包含了标注西班牙肿瘤临床病例中形态学新生物的规则,以及将这些标注映射到eCIE-O的规则。

注释员(具有与癌症相关学科的博士学位的科学家)定期咨询医生,以解决最困难的病理表达式。同一位医生定期检查随机选择的已注释临床记录,并将这些注释与注释员进行比较和讨论。为了对一些非常复杂的病例进行归一化处理,与西班牙最大的大学医院之一的病理学专家进行了协商。

注释者是谁?

临床专家。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

该语料库有助于发展西班牙语的医学语言模型。

偏见讨论

不适用。

附加信息

数据集策划者

巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)。

如需更多信息,请发送电子邮件至(plantl-gob-es@bsc.es)。

该工作是在 Plan-TL 框架下由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 资助的。

许可信息

该作品以 CC Attribution 4.0 International 许可证授权。

版权所有:西班牙数字化和人工智能国家秘书处(SEDIA)(2022)

引用信息

@article{cantemist,
  title={Named Entity Recognition, Concept Normalization and Clinical Coding: Overview of the Cantemist Track for Cancer Text Mining in Spanish, Corpus, Guidelines, Methods and Results.},
  author={Miranda-Escalada, Antonio and Farr{\'e}, Eul{\`a}lia and Krallinger, Martin},
  journal={IberLEF@ SEPLN},
  pages={303--323},
  year={2020}
}

贡献

[N/A]