QUAERO法语医学语料库最初是为命名实体识别和标准化开发的资源[1]。后来,它通过使用统一医学语言系统(UMLS)中的概念进行改进,旨在创建法语生物医学文本的标准化实体的黄金标准集,该集在CLEF eHealth评估实验室中使用[2][3]。
使用了一部分MEDLINE标题和EMEA文档进行了手动注释。注释过程是根据统一医学语言系统(UMLS)中的概念进行指导的:
注释了根据以下UMLS语义组(Bodenreider和McCray 2003)定义的十种临床实体类型:解剖学、化学和药物、设备、疾病、地理区域、生物、物体、现象、生理学、程序。
注释是全面的,因此标记了嵌套实体,并且实体可以映射到多个UMLS概念。特别是:(a)如果提及可以指代多个语义组,则应该注释所有相关的语义组。例如,在短语“prévention des récidives”(复发防治)中,提及“récidive”(复发)应以“DISORDER”类别(CUI C2825055)和“PHENOMENON”类别(CUI C0034897)进行注释;(b)如果提及可以在同一语义组中指代多个UMLS概念,则应该注释所有相关概念。例如,在短语“patients maniaques”(强迫患者)中,提及“maniaques”(强迫)应以CUIs C0564408和C0338831(类别“DISORDER”)进行注释;(c)覆盖与另一个实体重叠的实体仍应进行注释。例如,在短语“infarctus du myocarde”(心肌梗死)中,提及“myocarde”(心肌)应以类别“ANATOMY”(CUI C0027061)进行注释,并且提及“infarctus du myocarde”应以类别“DISORDER”(CUI C0027051)进行注释
QUAERO法语医学语料库BioC发布包括QUAERO法语医学语料库的一个子集,具体如下:
训练数据(作为CLEF eHealth 2015任务1b的训练数据使用的BRAT版本):
开发数据(作为CLEF eHealth 2015任务1b的测试数据和CLEF eHealth 2016任务2的开发数据使用的BRAT版本):
测试数据(作为CLEF eHealth 2016任务2的测试数据使用的BRAT版本):
QUAERO法语医学语料库的此版本,即BioC版本,以通过Brat2BioC工具自动转换原始的BRAT格式获得的BioC格式提供。 https://bitbucket.org/nicta_biomed/brat2bioc ,Jimeno Yepes等人开发的工具
Antonio Jimeno Yepes,Mariana Neves,Karin Verspoor Brat2BioC:Brat和BioC之间的转换工具BioCreative IV赛道1 - BioC:BioCreative互操作性倡议,2013
请注意,CLEF eHealth挑战赛2015年和2016年分发的QUAERO语料库的原始版本以独立的BRAT格式分发。它与CLEF eHealth评估工具一起分发。QUAERO法语医学语料库的此原始分发版本可从 https://quaerofrenchmed.limsi.fr 单独获取
有关任务或数据的所有问题都应该发送至aurelie.neveol@limsi.fr
@InProceedings{neveol14quaero, author = {Névéol, Aurélie and Grouin, Cyril and Leixa, Jeremy and Rosset, Sophie and Zweigenbaum, Pierre}, title = {The {QUAERO} {French} Medical Corpus: A Ressource for Medical Entity Recognition and Normalization}, OPTbooktitle = {Proceedings of the Fourth Workshop on Building and Evaluating Ressources for Health and Biomedical Text Processing}, booktitle = {Proc of BioTextMining Work}, OPTseries = {BioTxtM 2014}, year = {2014}, pages = {24--30}, }