数据集:

meczifho/QuaeroFrenchMed

语言:

fr

其他:

medical
英文

⚠️警告:此版本的数据集从原始数据集中进行了格式和内容的修改。嵌套实体已被删除,此数据集仅保留最大的嵌套实体。总体而言,这对应原始数据集中80%的实体。⚠️

QUAERO法语医学语料库最初是作为命名实体识别和标准化的资源进行开发的[1]。随后,它加以改进,目的是为了创建一组用于法语生物医学文本的标准化实体,并在CLEF eHealth评估实验室中使用[2][3]。

手动注释了一些MEDLINE标题和EMEA文档。注释过程是根据统一医学语言系统(UMLS)中的概念进行引导的:

  • 根据以下UMLS语义组(Bodenreider和McCray 2003)定义,标注了十种类型的临床实体:解剖学(ANAT),化学物质和药物(CHEM),设备(DEVI),疾病(DISO),地理区域(GEOG),生物体(LIVB),物体(OBJC),现象(PHEN),生理学(PHYS),程序(PROC)。

  • 注释是全面进行的,这样可以标记嵌套实体,并且实体可以映射到多个UMLS概念。特别是:(a)如果一个提及可以参考多个语义组,请注释所有相关的语义组。例如,在短语“预防复发”中,“复发”一词应使用类别“DISORDER”(CUI C2825055)和类别“PHENOMENON”(CUI C0034897)进行注释;(b)如果一个提及可以在同一语义组中引用多个UMLS概念,请注释所有相关概念。例如,在短语“患有强迫症的患者”中,“强迫症”一词应使用CUIs C0564408和C0338831(类别“DISORDER”)进行注释;(c)跨越另一个实体的实体仍应进行注释。例如,在短语“心肌梗塞”中,“心肌”一词应使用类别“ANATOMY”(CUI C0027061)进行注释,“心肌梗塞”一词应使用类别“DISORDER”(CUI C0027051)进行注释。

  • 有关更多详细信息,请参阅 the official webpage

    ⚠️警告:此版本的数据集从原始数据集中进行了格式和内容的修改。嵌套实体已被删除,此数据集仅保留最大的嵌套实体。总体而言,这对应原始数据集中80%的实体。⚠️

    以这种格式,句子的每个词都有一个关联的ner_tag,对应临床实体的类型,以下是映射:

    0: "O",
    1: "ANAT",
    2: "LIVB",
    3: "DISO",
    4: "PROC",
    5: "CHEM",
    6: "GEOG",
    7: "PHYS",
    8: "PHEN",
    9: "OBJC",
    10: "DEVI"
    

    [1] Névéol A, Grouin C, Leixa J, Rosset S, Zweigenbaum P. The QUAERO法语医学语料库:医学实体识别和归一化的资源。第四届建立和评估健康和生物医学文本处理资源工作坊 - BioTxtM2014. 2014:24-30

    [2] Névéol A, Grouin C, Tannier X, Hamon T, Kelly L, Goeuriot L, Zweigenbaum P. (2015) CLEF eHealth评估实验室2015年任务1b:临床命名实体识别。CLEF 2015评估实验室和研讨会:在线工作笔记,CEUR-WS,2015年9月。

    [3] Névéol A, Cohen, KB, Grouin C, Hamon T, Lavergne T, Kelly L, Goeuriot L, Rey G, Robert A, Tannier X, Zweigenbaum P. CLEF eHealth评估实验室2016年的临床信息提取。CLEF 2016,在线工作笔记,CEUR-WS 1609.2016:28-42。