QUAERO数据集卡片

QUAERO法语医学语料库最初是为命名实体识别和标准化开发的资源[1]。后来，它通过使用统一医学语言系统（UMLS）中的概念进行改进，旨在创建法语生物医学文本的标准化实体的黄金标准集，该集在CLEF eHealth评估实验室中使用[2][3]。

使用了一部分MEDLINE标题和EMEA文档进行了手动注释。注释过程是根据统一医学语言系统（UMLS）中的概念进行指导的：

注释了根据以下UMLS语义组（Bodenreider和McCray 2003）定义的十种临床实体类型：解剖学、化学和药物、设备、疾病、地理区域、生物、物体、现象、生理学、程序。

注释是全面的，因此标记了嵌套实体，并且实体可以映射到多个UMLS概念。特别是：(a)如果提及可以指代多个语义组，则应该注释所有相关的语义组。例如，在短语“prévention des récidives”（复发防治）中，提及“récidive”（复发）应以“DISORDER”类别（CUI C2825055）和“PHENOMENON”类别（CUI C0034897）进行注释；(b)如果提及可以在同一语义组中指代多个UMLS概念，则应该注释所有相关概念。例如，在短语“patients maniaques”（强迫患者）中，提及“maniaques”（强迫）应以CUIs C0564408和C0338831（类别“DISORDER”）进行注释；(c)覆盖与另一个实体重叠的实体仍应进行注释。例如，在短语“infarctus du myocarde”（心肌梗死）中，提及“myocarde”（心肌）应以类别“ANATOMY”（CUI C0027061）进行注释，并且提及“infarctus du myocarde”应以类别“DISORDER”（CUI C0027051）进行注释

QUAERO法语医学语料库BioC发布包括QUAERO法语医学语料库的一个子集，具体如下：

训练数据（作为CLEF eHealth 2015任务1b的训练数据使用的BRAT版本）：

MEDLINE_train_bioc文件：833个MEDLINE标题，以BioC格式标记了标准化实体
EMEA_train_bioc文件：3个EMEA文档，分为11个子文档，以BioC格式标注了标准化实体

开发数据（作为CLEF eHealth 2015任务1b的测试数据和CLEF eHealth 2016任务2的开发数据使用的BRAT版本）：

MEDLINE_dev_bioc文件：832个MEDLINE标题，以BioC格式标记了标准化实体
EMEA_dev_bioc文件：3个EMEA文档，分为12个子文档，以BioC格式标注了标准化实体

测试数据（作为CLEF eHealth 2016任务2的测试数据使用的BRAT版本）：

MEDLINE_test_bioc文件夹：833个MEDLINE标题，以BioC格式标记了标准化实体
EMEA folder_test_bioc：4个EMEA文档，分为15个子文档，以BioC格式标注了标准化实体

QUAERO法语医学语料库的此版本，即BioC版本，以通过Brat2BioC工具自动转换原始的BRAT格式获得的BioC格式提供。 https://bitbucket.org/nicta_biomed/brat2bioc ，Jimeno Yepes等人开发的工具

Antonio Jimeno Yepes，Mariana Neves，Karin Verspoor Brat2BioC：Brat和BioC之间的转换工具BioCreative IV赛道1 - BioC：BioCreative互操作性倡议，2013

请注意，CLEF eHealth挑战赛2015年和2016年分发的QUAERO语料库的原始版本以独立的BRAT格式分发。它与CLEF eHealth评估工具一起分发。QUAERO法语医学语料库的此原始分发版本可从 https://quaerofrenchmed.limsi.fr 单独获取

有关任务或数据的所有问题都应该发送至aurelie.neveol@limsi.fr

引用信息

@InProceedings{neveol14quaero, 
  author = {Névéol, Aurélie and Grouin, Cyril and Leixa, Jeremy 
            and Rosset, Sophie and Zweigenbaum, Pierre},
  title = {The {QUAERO} {French} Medical Corpus: A Ressource for
           Medical Entity Recognition and Normalization}, 
  OPTbooktitle = {Proceedings of the Fourth Workshop on Building 
                 and Evaluating Ressources for Health and Biomedical 
                 Text Processing}, 
  booktitle = {Proc of BioTextMining Work}, 
  OPTseries = {BioTxtM 2014}, 
  year = {2014}, 
  pages = {24--30}, 
}

作者:

Dr-BERT

数据集大小:

18.58 KB