数据集:
bigbio/medmentions
MedMentions 是一个用于识别生物医学概念的新的手动注释资源。与其他注释的生物医学语料库相比,MedMentions 的特点是它的规模(超过4,000个摘要和超过350,000个链接提及),概念本体论的规模(来自于UMLS 2017的超过3百万个概念)以及其对生物医学学科的广泛覆盖。
语料库:MedMentions 语料库由4,392篇文献(标题和摘要)随机选择而来,这些文献是2016年发布在PubMed上的、属于生物医学领域、以英语发表、并且既有标题又有摘要的文献。
注释员:我们招募了一支具有丰富生物医学内容整理经验的专业注释员团队,详尽地注释了这些文献中 UMLS®(2017AA完整版本)的实体提及。
注释质量:我们没有收集严格的评注者间一致性数据。为了了解 MedMentions 的注释质量,我们随机选取了注释的语料库中的八篇文献,总共包含469个概念。两位没有参与注释任务的生物学家(“评审员”)各自审核了四篇文献。评审员与注释员之间的一致性,即注释的准确率估计值为97.3%。
@misc{mohan2019medmentions, title={MedMentions: A Large Biomedical Corpus Annotated with UMLS Concepts}, author={Sunil Mohan and Donghui Li}, year={2019}, eprint={1902.09476}, archivePrefix={arXiv}, primaryClass={cs.CL} }