数据集:

bigbio/cantemist

语言:

es

计算机处理:

monolingual

许可:

cc-by-4.0
英文

CANTEMIST 数据集卡片

包含1301个肿瘤临床病例报告的集合,报告以西班牙语书写,其中肿瘤形态学信息由临床专家手动注释并映射到一个受控术语表。每个肿瘤形态学提及都链接到一个eCIE-O代码(ICD-O的西班牙语等价物)。

原始数据集采用Brat格式分发,并随机抽样成3个子集。训练集、开发集和测试集分别包含501个、500个和300个文档。

该数据集是为Plan-TL赞助的癌症文本挖掘共享任务而设计的。该任务分为三个子任务:CANTEMIST-NER、CANTEMIST_NORM和CANTEMIST-CODING。

CANTEMIST-NER跟踪:需要自动找到肿瘤形态学提及。所有肿瘤形态学提及都由UTF-8纯文本医学文档中的相应字符偏移定义。

CANTEMIST-NORM跟踪:临床概念规范化或命名实体规范化任务,需要返回所有肿瘤形态学实体提及以及相应的eCIE-O-3.1代码,即找到和规范化肿瘤形态学提及。

CANTEMIST-CODING跟踪:要求为每个文档返回一个排名列表,其中包含其相应的ICD-O-3代码。这实质上是一种索引或多标签分类任务,即肿瘤临床编码任务。

更多信息请访问 https://temu.bsc.es/cantemist 网址或发送电子邮件到encargo-pln-life@bsc.es

引用信息

@article{miranda2020named,
  title={Named Entity Recognition, Concept Normalization and Clinical Coding: Overview of the Cantemist Track for Cancer Text Mining in Spanish, Corpus, Guidelines, Methods and Results.},
  author={Miranda-Escalada, Antonio and Farr{'e}, Eul{\`a}lia and Krallinger, Martin},
  journal={IberLEF@ SEPLN},
  pages={303--323},
  year={2020}
}