数据集:

Dr-BERT/QUAERO

语言:

fr

计算机处理:

monolingual

大小:

1K<n<10K

其他:

medical

许可:

other
英文

QUAERO数据集卡片

QUAERO法语医学语料库最初是为命名实体识别和标准化开发的资源[1]。后来,它通过使用统一医学语言系统(UMLS)中的概念进行改进,旨在创建法语生物医学文本的标准化实体的黄金标准集,该集在CLEF eHealth评估实验室中使用[2][3]。

使用了一部分MEDLINE标题和EMEA文档进行了手动注释。注释过程是根据统一医学语言系统(UMLS)中的概念进行指导的:

  • 注释了根据以下UMLS语义组(Bodenreider和McCray 2003)定义的十种临床实体类型:解剖学、化学和药物、设备、疾病、地理区域、生物、物体、现象、生理学、程序。

  • 注释是全面的,因此标记了嵌套实体,并且实体可以映射到多个UMLS概念。特别是:(a)如果提及可以指代多个语义组,则应该注释所有相关的语义组。例如,在短语“prévention des récidives”(复发防治)中,提及“récidive”(复发)应以“DISORDER”类别(CUI C2825055)和“PHENOMENON”类别(CUI C0034897)进行注释;(b)如果提及可以在同一语义组中指代多个UMLS概念,则应该注释所有相关概念。例如,在短语“patients maniaques”(强迫患者)中,提及“maniaques”(强迫)应以CUIs C0564408和C0338831(类别“DISORDER”)进行注释;(c)覆盖与另一个实体重叠的实体仍应进行注释。例如,在短语“infarctus du myocarde”(心肌梗死)中,提及“myocarde”(心肌)应以类别“ANATOMY”(CUI C0027061)进行注释,并且提及“infarctus du myocarde”应以类别“DISORDER”(CUI C0027051)进行注释

  • QUAERO法语医学语料库BioC发布包括QUAERO法语医学语料库的一个子集,具体如下:

    训练数据(作为CLEF eHealth 2015任务1b的训练数据使用的BRAT版本):

    • MEDLINE_train_bioc文件:833个MEDLINE标题,以BioC格式标记了标准化实体
    • EMEA_train_bioc文件:3个EMEA文档,分为11个子文档,以BioC格式标注了标准化实体

    开发数据(作为CLEF eHealth 2015任务1b的测试数据和CLEF eHealth 2016任务2的开发数据使用的BRAT版本):

    • MEDLINE_dev_bioc文件:832个MEDLINE标题,以BioC格式标记了标准化实体
    • EMEA_dev_bioc文件:3个EMEA文档,分为12个子文档,以BioC格式标注了标准化实体

    测试数据(作为CLEF eHealth 2016任务2的测试数据使用的BRAT版本):

    • MEDLINE_test_bioc文件夹:833个MEDLINE标题,以BioC格式标记了标准化实体
    • EMEA folder_test_bioc:4个EMEA文档,分为15个子文档,以BioC格式标注了标准化实体

    QUAERO法语医学语料库的此版本,即BioC版本,以通过Brat2BioC工具自动转换原始的BRAT格式获得的BioC格式提供。 https://bitbucket.org/nicta_biomed/brat2bioc ,Jimeno Yepes等人开发的工具

    Antonio Jimeno Yepes,Mariana Neves,Karin Verspoor Brat2BioC:Brat和BioC之间的转换工具BioCreative IV赛道1 - BioC:BioCreative互操作性倡议,2013

    请注意,CLEF eHealth挑战赛2015年和2016年分发的QUAERO语料库的原始版本以独立的BRAT格式分发。它与CLEF eHealth评估工具一起分发。QUAERO法语医学语料库的此原始分发版本可从 https://quaerofrenchmed.limsi.fr 单独获取

    有关任务或数据的所有问题都应该发送至aurelie.neveol@limsi.fr

    引用信息

    @InProceedings{neveol14quaero, 
      author = {Névéol, Aurélie and Grouin, Cyril and Leixa, Jeremy 
                and Rosset, Sophie and Zweigenbaum, Pierre},
      title = {The {QUAERO} {French} Medical Corpus: A Ressource for
               Medical Entity Recognition and Normalization}, 
      OPTbooktitle = {Proceedings of the Fourth Workshop on Building 
                     and Evaluating Ressources for Health and Biomedical 
                     Text Processing}, 
      booktitle = {Proc of BioTextMining Work}, 
      OPTseries = {BioTxtM 2014}, 
      year = {2014}, 
      pages = {24--30}, 
    }