数据集:

bigbio/quaero

语言:

fr

计算机处理:

monolingual

许可:

other
英文

QUAERO数据集卡片

QUAERO法国医学语料库最初是作为命名实体识别和规范化的资源开发的[1]。随后,它通过创建一个法语生物医学文本的标准化实体集,以在CLEF eHealth评估实验室中使用[2][3]而得以改进。

人工标注了一些MEDLINE标题和EMEA文档。标注过程是根据统一医学语言系统(UMLS)中的概念进行的:

  • 根据以下UMLS语义组(Bodenreider和McCray 2003)定义的十种临床实体类型进行了标注:解剖学、化学物质和药物、设备、疾病、地理区域、生物、物体、现象、生理学、程序。

  • 以全面的方式进行注释,因此标记了嵌套实体,并且实体可以映射到多个UMLS概念。特别是:(a)如果一个提及可以指代多个语义组,则应该标记所有相关的语义组。例如,在短语“预防复发”的短语中,“复发”一词应标注为“DISORDER”类别(CUI C2825055)和“PHENOMENON”类别(CUI C0034897);(b)如果一个提及可以在同一语义组内指代多个UMLS概念,则应标注所有相关的概念。例如,在短语“强迫”病人(obsessive patients)中,“强迫”一词应标注为CUIs C0564408和C0338831(类别“DISORDER”);(c)重叠的实体应仍然标注。例如,在短语“心肌梗死”中,“心肌”应标注为“ANATOMY”类别(CUI C0027061),而“心肌梗死”一词应标注为“DISORDER”类别(CUI C0027051)

  • QUAERO法国医学语料库BioC版本包含QUAERO法国医学语料库的一个子集,具体如下:

    训练数据(CLEF eHealth 2015任务1b的训练数据中使用的BRAT版本):

    • MEDLINE_train_bioc 文件:833个MEDLINE标题,以BioC格式标注了标准化的实体
    • EMEA_train_bioc 文件:3个EMEA文档,分成11个子文档,以BioC格式标注了标准化的实体

    开发数据(CLEF eHealth 2015任务1b作为测试数据,CLEF eHealth 2016任务2作为开发数据中使用的BRAT版本):

    • MEDLINE_dev_bioc 文件:832个MEDLINE标题,以BioC格式标注了标准化的实体
    • EMEA_dev_bioc 文件:3个EMEA文档,分成12个子文档,以BioC格式标注了标准化的实体

    测试数据(CLEF eHealth 2016任务2作为测试数据中使用的BRAT版本):

    • MEDLINE_test_bioc文件夹:833个MEDLINE标题,以BioC格式标注了标准化的实体
    • EMEA folder_test_bioc文件夹:4个EMEA文件,分成15个子文档,以BioC格式标注了标准化的实体

    QUAERO法国医学语料库的此版本是通过使用Brat2BioC工具[ https://bitbucket.org/nicta_biomed/brat2bioc ]从原始的BRAT格式自动转换得到的BioC格式。

    Antonio Jimeno Yepes,Mariana Neves,Karin Verspoor Brat2BioC:在brat和BioC之间进行转换的工具BioCreative IV track 1 - BioC:BioCreative互操作性倡议,2013

    请注意,QUAERO法国医学语料库在CLEF eHealth挑战2015和2016中分发的原始版本以独立的BRAT格式提供。它与CLEF eHealth评估工具一起分发。这个QUAERO法国医学语料库的原始分发与[ https://quaerofrenchmed.limsi.fr ]是可分开获取的

    有关任务或数据的所有问题都应发送至aurelie.neveol@limsi.fr

    引文信息

    @InProceedings{neveol14quaero, 
      author = {Névéol, Aurélie and Grouin, Cyril and Leixa, Jeremy 
                and Rosset, Sophie and Zweigenbaum, Pierre},
      title = {The {QUAERO} {French} Medical Corpus: A Ressource for
               Medical Entity Recognition and Normalization}, 
      OPTbooktitle = {Proceedings of the Fourth Workshop on Building 
                     and Evaluating Ressources for Health and Biomedical 
                     Text Processing}, 
      booktitle = {Proc of BioTextMining Work}, 
      OPTseries = {BioTxtM 2014}, 
      year = {2014}, 
      pages = {24--30}, 
    }