数据集:

PlanTL-GOB-ES/cantemist-ner

其他:

biomedical clinical spanish

许可:

cc-by-4.0

批注创建人:

expert-generated

计算机处理:

monolingual

语言:

子任务:

named-entity-recognition

任务:

标记分类

数据集介绍文件清单

英文

CANTEMIST

数据集描述

手动分类的西班牙肿瘤临床病例报告集合。

主页： zenodo
论文： Named Entity Recognition, Concept Normalization and Clinical Coding: Overview of the Cantemist Track for Cancer Text Mining in Spanish, Corpus, Guidelines, Methods and Results
联系人：encargo-pln-life@bsc.es

数据集摘要

包含1301份用西班牙语书写的肿瘤临床病例报告，其中肿瘤形态学提及由临床专家手动标注并映射到受控术语表达。每个肿瘤形态学提及都链接到eCIE-O代码（西班牙版的ICD-O）。

训练子集包含501个文档，开发子集包含500个，测试子集包含300个。原始数据集以 Brat 格式分发。

该数据集是为由 Plan-TL 赞助的癌症文本挖掘共享任务而设计的。

如需更多信息，请访问 the official website 。

支持的任务

命名实体识别（NER）

语言

西班牙语（es）

目录结构

README.md
cantemist.py
train.conll
dev.conll
test.conll

数据集结构

数据实例

三个四列文件，每个文件对应一个拆分。

数据字段

每个文件有4列：

第一列：单词形式或标点符号
第二列：原始BRAT文件名
第三列：范围
第四列：IOB标记

示例

El                  cc_onco101    662_664    O
informe             cc_onco101    665_672    O
HP                  cc_onco101    673_675    O
es                  cc_onco101    676_678    O
compatible          cc_onco101    679_689    O
con                 cc_onco101    690_693    O
adenocarcinoma      cc_onco101    694_708    B-MORFOLOGIA_NEOPLASIA
moderadamente       cc_onco101    709_722    I-MORFOLOGIA_NEOPLASIA
diferenciado        cc_onco101    723_735    I-MORFOLOGIA_NEOPLASIA
que                 cc_onco101    736_739    O
afecta              cc_onco101    740_746    O
a                   cc_onco101    747_748    O
grasa               cc_onco101    749_754    O
peripancreática     cc_onco101    755_770    O
sobrepasando        cc_onco101    771_783    O
la                  cc_onco101    784_786    O
serosa              cc_onco101    787_793    O
,                   cc_onco101    793_794    O
infiltración        cc_onco101    795_807    O
perineural          cc_onco101    808_818    O
.                   cc_onco101    818_819    O

数据拆分

Split	Size
train	19,397
dev	18,165
test	11,168

数据集创建

策划原因

为了与其他语言的类似数据集兼容，我们尽可能遵循现有的策划指南。

源数据

初始数据收集和归一化

选择的临床病例报告与医院健康记录非常相似。为增加CANTEMIST语料库的实用性和实际关联性，我们选择了涉及各个性别的临床病例，并包含了各个年龄段的病例（从儿童到老年人）以及各个复杂程度的病例（实体肿瘤、血液肿瘤恶性肿瘤、神经内分泌肿瘤等）。

CANTEMIST的案例包括临床体征和症状、个人和家族史、当前疾病情况、体格检查、相关测试（血液检测、影像学、病理学）、诊断、治疗（包括化疗的不良反应）、病情演变和结局。

源语言生成者是谁？

人类，没有机器生成的数据。

注释

注释过程

CANTEMIST语料库的手动注释由临床专家根据CANTEMIST指南执行（有关详细信息，请参考此 paper ）。这些指南包含了标注西班牙肿瘤临床病例中形态学新生物的规则，以及将这些标注映射到eCIE-O的规则。

注释员（具有与癌症相关学科的博士学位的科学家）定期咨询医生，以解决最困难的病理表达式。同一位医生定期检查随机选择的已注释临床记录，并将这些注释与注释员进行比较和讨论。为了对一些非常复杂的病例进行归一化处理，与西班牙最大的大学医院之一的病理学专家进行了协商。

注释者是谁？

临床专家。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

该语料库有助于发展西班牙语的医学语言模型。

偏见讨论

不适用。

附加信息

数据集策划者

巴塞罗那超级计算中心（BSC）的文本挖掘单元（TeMU）（bsc-temu@bsc.es）。

如需更多信息，请发送电子邮件至（plantl-gob-es@bsc.es）。

该工作是在 Plan-TL 框架下由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 资助的。

许可信息

该作品以 CC Attribution 4.0 International 许可证授权。

引用信息

@article{cantemist,
  title={Named Entity Recognition, Concept Normalization and Clinical Coding: Overview of the Cantemist Track for Cancer Text Mining in Spanish, Corpus, Guidelines, Methods and Results.},
  author={Miranda-Escalada, Antonio and Farr{\'e}, Eul{\`a}lia and Krallinger, Martin},
  journal={IberLEF@ SEPLN},
  pages={303--323},
  year={2020}
}

贡献

[N/A]

作者:

PlanTL-GOB-ES

数据集大小:

30.49 MB