数据集:

bigbio/gnormplus

语言:

en

计算机处理:

monolingual
英文

GNormPlus数据集卡片

我们重新注释了两个现有的基因语料库。BioCreative II GN语料库是用于GNtools基准测试的广泛使用的数据集,包括共543篇文章的文档级注释(其训练集中有281篇文章;测试集中有262篇文章)。Citation GIA测试集是最近在NLM进行基因索引化的PubMed摘要,包括151篇文章,其中包含了提及级别和文档级别的注释。选择这两个语料库是因为它们都专注于人类基因。对于这两个语料库,我们还添加了对基因家族和蛋白质结构域的注释。对于BioCreative GN语料库,我们还添加了提及级别的基因注释。因此,在我们的新语料库中,共有694篇PubMed文章。我们使用PubTator作为注释工具,以及BioC格式。

引用信息

@Article{Wei2015,
author={Wei, Chih-Hsuan and Kao, Hung-Yu and Lu, Zhiyong},
title={GNormPlus: An Integrative Approach for Tagging Genes, Gene Families, and Protein Domains},
journal={BioMed Research International},
year={2015},
month={Aug},
day={25},
publisher={Hindawi Publishing Corporation},
volume={2015},
pages={918710},
issn={2314-6133},
doi={10.1155/2015/918710},
url={https://doi.org/10.1155/2015/918710}
}