数据集:
bigbio/quaero
QUAERO法国医学语料库最初是作为命名实体识别和规范化的资源开发的[1]。随后,它通过创建一个法语生物医学文本的标准化实体集,以在CLEF eHealth评估实验室中使用[2][3]而得以改进。
人工标注了一些MEDLINE标题和EMEA文档。标注过程是根据统一医学语言系统(UMLS)中的概念进行的:
根据以下UMLS语义组(Bodenreider和McCray 2003)定义的十种临床实体类型进行了标注:解剖学、化学物质和药物、设备、疾病、地理区域、生物、物体、现象、生理学、程序。
以全面的方式进行注释,因此标记了嵌套实体,并且实体可以映射到多个UMLS概念。特别是:(a)如果一个提及可以指代多个语义组,则应该标记所有相关的语义组。例如,在短语“预防复发”的短语中,“复发”一词应标注为“DISORDER”类别(CUI C2825055)和“PHENOMENON”类别(CUI C0034897);(b)如果一个提及可以在同一语义组内指代多个UMLS概念,则应标注所有相关的概念。例如,在短语“强迫”病人(obsessive patients)中,“强迫”一词应标注为CUIs C0564408和C0338831(类别“DISORDER”);(c)重叠的实体应仍然标注。例如,在短语“心肌梗死”中,“心肌”应标注为“ANATOMY”类别(CUI C0027061),而“心肌梗死”一词应标注为“DISORDER”类别(CUI C0027051)
QUAERO法国医学语料库BioC版本包含QUAERO法国医学语料库的一个子集,具体如下:
训练数据(CLEF eHealth 2015任务1b的训练数据中使用的BRAT版本):
开发数据(CLEF eHealth 2015任务1b作为测试数据,CLEF eHealth 2016任务2作为开发数据中使用的BRAT版本):
测试数据(CLEF eHealth 2016任务2作为测试数据中使用的BRAT版本):
QUAERO法国医学语料库的此版本是通过使用Brat2BioC工具[ https://bitbucket.org/nicta_biomed/brat2bioc ]从原始的BRAT格式自动转换得到的BioC格式。
Antonio Jimeno Yepes,Mariana Neves,Karin Verspoor Brat2BioC:在brat和BioC之间进行转换的工具BioCreative IV track 1 - BioC:BioCreative互操作性倡议,2013
请注意,QUAERO法国医学语料库在CLEF eHealth挑战2015和2016中分发的原始版本以独立的BRAT格式提供。它与CLEF eHealth评估工具一起分发。这个QUAERO法国医学语料库的原始分发与[ https://quaerofrenchmed.limsi.fr ]是可分开获取的
有关任务或数据的所有问题都应发送至aurelie.neveol@limsi.fr
@InProceedings{neveol14quaero, author = {Névéol, Aurélie and Grouin, Cyril and Leixa, Jeremy and Rosset, Sophie and Zweigenbaum, Pierre}, title = {The {QUAERO} {French} Medical Corpus: A Ressource for Medical Entity Recognition and Normalization}, OPTbooktitle = {Proceedings of the Fourth Workshop on Building and Evaluating Ressources for Health and Biomedical Text Processing}, booktitle = {Proc of BioTextMining Work}, OPTseries = {BioTxtM 2014}, year = {2014}, pages = {24--30}, }