数据集:

bigbio/umnsrs

语言:

en

计算机处理:

monolingual

许可:

cc0-1.0
英文

UMNSRS数据集卡片

UMNSRS是由Pakhomov等人开发的数据集,包含725个临床术语对,根据语义相似性和相关性进行标注。每个术语对的相似性和相关性是基于一个连续刻度进行标注的,通过住院医师触摸触摸屏幕上的一个条来指示相似性或相关性的程度。可用的子集如下:

  • 相似性:一套566个UMLS概念对,使用连续刻度手动评定语义相似性(例如,鲸鱼-海豚)。
  • 相关性:一套588个UMLS概念对,使用连续刻度手动评定语义相关性(例如,针-线)。
  • 相似性_mod:对UMNSRS-相似性数据集进行修改,排除控制样本和那些在临床、生物医学和一般英语语料库中找不到匹配文本的概念对。具体修改细节请参考文章(Corpus Domain Effects on Distributional Semantic Modeling of Medical Terms. Serguei V.S. Pakhomov, Greg Finley, Reed McEwan, Yan Wang, and Genevieve B. Melton. Bioinformatics. 2016; 32(23):3635-3644)。结果数据集包含449对概念。
  • 相关性_mod:对UMNSRS-相关性数据集进行修改,排除控制样本和那些在临床、生物医学和一般英语语料库中找不到匹配文本的概念对。具体修改细节请参考文章(Corpus Domain Effects on Distributional Semantic Modeling of Medical Terms. Serguei V.S. Pakhomov, Greg Finley, Reed McEwan, Yan Wang, and Genevieve B. Melton. Bioinformatics. 2016; 32(23):3635-3644)。结果数据集包含458对概念。

引用信息

@inproceedings{pakhomov2010semantic,
  title={Semantic similarity and relatedness between clinical terms: an experimental study},
  author={Pakhomov, Serguei and McInnes, Bridget and Adam, Terrence and Liu, Ying and Pedersen, Ted and Melton,   Genevieve B},
  booktitle={AMIA annual symposium proceedings},
  volume={2010},
  pages={572},
  year={2010},
  organization={American Medical Informatics Association}
}