数据集:

bigbio/medmentions

语言:

en

计算机处理:

monolingual

预印本库:

arxiv:1902.09476

许可:

cc0-1.0
英文

MedMentions 数据集卡片

MedMentions 是一个用于识别生物医学概念的新的手动注释资源。与其他注释的生物医学语料库相比,MedMentions 的特点是它的规模(超过4,000个摘要和超过350,000个链接提及),概念本体论的规模(来自于UMLS 2017的超过3百万个概念)以及其对生物医学学科的广泛覆盖。

语料库:MedMentions 语料库由4,392篇文献(标题和摘要)随机选择而来,这些文献是2016年发布在PubMed上的、属于生物医学领域、以英语发表、并且既有标题又有摘要的文献。

注释员:我们招募了一支具有丰富生物医学内容整理经验的专业注释员团队,详尽地注释了这些文献中 UMLS®(2017AA完整版本)的实体提及。

注释质量:我们没有收集严格的评注者间一致性数据。为了了解 MedMentions 的注释质量,我们随机选取了注释的语料库中的八篇文献,总共包含469个概念。两位没有参与注释任务的生物学家(“评审员”)各自审核了四篇文献。评审员与注释员之间的一致性,即注释的准确率估计值为97.3%。

引用信息

@misc{mohan2019medmentions,
      title={MedMentions: A Large Biomedical Corpus Annotated with UMLS Concepts},
      author={Sunil Mohan and Donghui Li},
      year={2019},
      eprint={1902.09476},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}