数据集:

bigbio/n2c2_2018_track1

语言:

en

计算机处理:

monolingual

许可:

other
英文

n2c2 2018 选择标准的数据集卡片

2018年全国NLP临床挑战共享任务的第一项任务旨在确定NLP系统能否被训练出来识别是否符合真实临床试验的一组选择标准的患者。所选标准包括测量检测(“任意HbA1c值介于6.5%和9.5%之间”),推理(“使用阿司匹林预防心肌梗死”),时间推理(“过去一年内诊断出酮症酸中毒”)和专家判断(“重要的糖尿病相关并发症”)。对于语料库,我们使用了来自2014年i2b2/UTHealth共享任务4的美国英语、纵向临床叙述的数据集。

最终选定的13个选择标准如下:

  • DRUG-ABUSE:药物滥用,现在或曾经滥用药物
  • ALCOHOL-ABUSE:超出每周推荐限量的当前饮酒行为
  • ENGLISH:患者必须会讲英语
  • MAKES-DECISIONS:患者必须自行决定医疗事项
  • ABDOMINAL:有过腹部手术、小肠或大肠切除术或小肠梗阻的历史
  • MAJOR-DIABETES:重要的糖尿病相关并发症。对于本批注,我们将“重大并发症”(与“轻微并发症”相对)定义为以下任何一种与未控制的糖尿病有关(或强烈相关)的结果:a.截肢b.肾损害c.皮肤状况d.视网膜病变e.肾病f.神经病变
  • ADVANCED-CAD:严重的心血管疾病(CAD)。我们将“严重”定义为具有以下两项或更多项支持的情况:a.服用两种或更多种治疗CAD的药物b.心肌梗死(MI)的病史c.当前正在经历心绞痛d.缺血,过去或现在
  • MI-6MOS:过去6个月内有心肌梗死
  • KETO-1YR:过去一年中被诊断出酮症酸中毒
  • DIETSUPP-2MOS:过去2个月内服用膳食补充剂(不包括维生素D)
  • ASP-FOR-MI:使用阿司匹林预防心肌梗死
  • HBA1C:任何血红蛋白A1c(HbA1c)值介于6.5%和9.5%之间
  • CREATININE:血清肌酐>正常上限
  • 训练集包含202个患者记录,具有文档级别的注释,其中10个记录包含指示注释者证据的文本范围,而测试集包含86个记录。

    注意:

    • 注释者之间的平均一致性为84.9%
    • 带有指示注释者证据的10个记录的位置未知。然而,作者使用基于脚本的简单方法来验证训练集中是否包含任何标签与相应标签的文本。结果验证了至少训练集和测试集没有任何标签旁边有任何文本的标签。

    引用信息

    @article{DBLP:journals/jamia/StubbsFSHU19,
      author    = {
                    Amber Stubbs and
                    Michele Filannino and
                    Ergin Soysal and
                    Samuel Henry and
                    Ozlem Uzuner
                   },
      title     = {Cohort selection for clinical trials: n2c2 2018 shared task track 1},
      journal   = {J. Am. Medical Informatics Assoc.},
      volume    = {26},
      number    = {11},
      pages     = {1163--1171},
      year      = {2019},
      url       = {https://doi.org/10.1093/jamia/ocz163},
      doi       = {10.1093/jamia/ocz163},
      timestamp = {Mon, 15 Jun 2020 16:56:11 +0200},
      biburl    = {https://dblp.org/rec/journals/jamia/StubbsFSHU19.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }