数据集:
bigbio/gnormplus
我们重新注释了两个现有的基因语料库。BioCreative II GN语料库是用于GNtools基准测试的广泛使用的数据集,包括共543篇文章的文档级注释(其训练集中有281篇文章;测试集中有262篇文章)。Citation GIA测试集是最近在NLM进行基因索引化的PubMed摘要,包括151篇文章,其中包含了提及级别和文档级别的注释。选择这两个语料库是因为它们都专注于人类基因。对于这两个语料库,我们还添加了对基因家族和蛋白质结构域的注释。对于BioCreative GN语料库,我们还添加了提及级别的基因注释。因此,在我们的新语料库中,共有694篇PubMed文章。我们使用PubTator作为注释工具,以及BioC格式。
@Article{Wei2015, author={Wei, Chih-Hsuan and Kao, Hung-Yu and Lu, Zhiyong}, title={GNormPlus: An Integrative Approach for Tagging Genes, Gene Families, and Protein Domains}, journal={BioMed Research International}, year={2015}, month={Aug}, day={25}, publisher={Hindawi Publishing Corporation}, volume={2015}, pages={918710}, issn={2314-6133}, doi={10.1155/2015/918710}, url={https://doi.org/10.1155/2015/918710} }