数据集:

zhengyun21/PMC-Patients

英文

PMC-Patients 数据集卡片

数据集概述

PMC-Patients 数据集是一种首创的数据集,由 PubMed Central (PMC) 中的病例报告中提取的16.7万个患者摘要、310万个患者与文章相关性注释和29.3万个患者与患者相似性注释组成。

支持的任务和排行榜

这是纯粹的患者摘要数据集,具有关系注释。对于 ReCDS 基准,请参考 this dataset

基于 PMC-Patients,我们定义了两个任务来评估基于检索的临床决策支持系统(ReCDS):患者到文章的检索(PAR)和患者到患者的检索(PPR)。详细信息,请参考 our paper leaderboard

语言

英文(en)。

数据集结构

PMC-Paitents_full.json

此文件包含了 PMC-Patients 中所有关于患者摘要的信息,格式为包含以下键的字典列表:

  • patient_id :字符串。患者的连续标识符,从0开始。
  • patient_uid :字符串。每个患者的唯一ID,格式为 PMID-x,其中 PMID 是患者来源文章的 PubMed 标识符,x 表示患者在源文章中的索引。
  • PMID :字符串。源文章的 PubMed 标识符。
  • file_path :字符串。源文章的 XML 文件路径。
  • title :字符串。源文章标题。
  • patient :字符串。患者摘要。
  • age :元组列表。每个条目的格式为(value,unit),其中 value 是浮点数,unit 可以是 'year'、'month'、'week'、'day' 和 'hour',表示年龄单位。例如,[[1.0,'year'],[2.0,'month']] 表示患者为一岁两个月的婴儿。
  • gender :'M' 或 'F'。男性或女性。
  • similar_patients :字符串列表。类似患者的 patient_uid。
  • relevant_articles :字符串列表。相关文章的 PMID。

数据集创建

如果您有兴趣获取 PMC-Patients 的收集并重现我们的基准结果,请参考 this reporsitory

引用信息

如果您在研究中发现 PMC-Patients 对您有帮助,请引用我们的作品:

@misc{zhao2023pmcpatients,
      title={PMC-Patients: A Large-scale Dataset of Patient Summaries and Relations for Benchmarking Retrieval-based Clinical Decision Support Systems}, 
      author={Zhengyun Zhao and Qiao Jin and Fangyuan Chen and Tuorui Peng and Sheng Yu},
      year={2023},
      eprint={2202.13876},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}