数据集:
bigbio/genetag
命名实体识别(NER)是从生物医学文献中进行文本挖掘的重要第一步。要评估生物医学NER系统的性能,需要一个标准化的测试语料库。由于基因/蛋白质名称的复杂性,对此类语料库进行基因/蛋白质命名实体识别的注释是一个困难的过程。我们描述了GENETAG的构建和注释,这是一个包含20K篇MEDLINE®句子的用于基因/蛋白质命名实体识别的语料库。其中的15K篇GENETAG句子被用于BioCreAtIvE任务1A比赛。
@article{Tanabe2005, author = {Lorraine Tanabe and Natalie Xie and Lynne H Thom and Wayne Matten and W John Wilbur}, title = {{GENETAG}: a tagged corpus for gene/protein named entity recognition}, journal = {{BMC} Bioinformatics}, volume = {6}, year = {2005}, url = {https://doi.org/10.1186/1471-2105-6-S1-S3}, doi = {10.1186/1471-2105-6-s1-s3}, biburl = {}, bibsource = {} }