GNormPlus数据集卡片

我们重新注释了两个现有的基因语料库。BioCreative II GN语料库是用于GNtools基准测试的广泛使用的数据集，包括共543篇文章的文档级注释（其训练集中有281篇文章；测试集中有262篇文章）。Citation GIA测试集是最近在NLM进行基因索引化的PubMed摘要，包括151篇文章，其中包含了提及级别和文档级别的注释。选择这两个语料库是因为它们都专注于人类基因。对于这两个语料库，我们还添加了对基因家族和蛋白质结构域的注释。对于BioCreative GN语料库，我们还添加了提及级别的基因注释。因此，在我们的新语料库中，共有694篇PubMed文章。我们使用PubTator作为注释工具，以及BioC格式。

引用信息

@Article{Wei2015,
author={Wei, Chih-Hsuan and Kao, Hung-Yu and Lu, Zhiyong},
title={GNormPlus: An Integrative Approach for Tagging Genes, Gene Families, and Protein Domains},
journal={BioMed Research International},
year={2015},
month={Aug},
day={25},
publisher={Hindawi Publishing Corporation},
volume={2015},
pages={918710},
issn={2314-6133},
doi={10.1155/2015/918710},
url={https://doi.org/10.1155/2015/918710}
}

作者:

bigbio

数据集大小:

33.51 KB