数据集:
bigbio/cantemist
包含1301个肿瘤临床病例报告的集合,报告以西班牙语书写,其中肿瘤形态学信息由临床专家手动注释并映射到一个受控术语表。每个肿瘤形态学提及都链接到一个eCIE-O代码(ICD-O的西班牙语等价物)。
原始数据集采用Brat格式分发,并随机抽样成3个子集。训练集、开发集和测试集分别包含501个、500个和300个文档。
该数据集是为Plan-TL赞助的癌症文本挖掘共享任务而设计的。该任务分为三个子任务:CANTEMIST-NER、CANTEMIST_NORM和CANTEMIST-CODING。
CANTEMIST-NER跟踪:需要自动找到肿瘤形态学提及。所有肿瘤形态学提及都由UTF-8纯文本医学文档中的相应字符偏移定义。
CANTEMIST-NORM跟踪:临床概念规范化或命名实体规范化任务,需要返回所有肿瘤形态学实体提及以及相应的eCIE-O-3.1代码,即找到和规范化肿瘤形态学提及。
CANTEMIST-CODING跟踪:要求为每个文档返回一个排名列表,其中包含其相应的ICD-O-3代码。这实质上是一种索引或多标签分类任务,即肿瘤临床编码任务。
更多信息请访问 https://temu.bsc.es/cantemist 网址或发送电子邮件到encargo-pln-life@bsc.es
@article{miranda2020named, title={Named Entity Recognition, Concept Normalization and Clinical Coding: Overview of the Cantemist Track for Cancer Text Mining in Spanish, Corpus, Guidelines, Methods and Results.}, author={Miranda-Escalada, Antonio and Farr{'e}, Eul{\`a}lia and Krallinger, Martin}, journal={IberLEF@ SEPLN}, pages={303--323}, year={2020} }