GENETAG 数据集卡片

命名实体识别（NER）是从生物医学文献中进行文本挖掘的重要第一步。要评估生物医学NER系统的性能，需要一个标准化的测试语料库。由于基因/蛋白质名称的复杂性，对此类语料库进行基因/蛋白质命名实体识别的注释是一个困难的过程。我们描述了GENETAG的构建和注释，这是一个包含20K篇MEDLINE®句子的用于基因/蛋白质命名实体识别的语料库。其中的15K篇GENETAG句子被用于BioCreAtIvE任务1A比赛。

引用信息

@article{Tanabe2005,
  author    = {Lorraine Tanabe and Natalie Xie and Lynne H Thom and Wayne Matten and W John Wilbur},
  title     = {{GENETAG}: a tagged corpus for gene/protein named entity recognition},
  journal   = {{BMC} Bioinformatics},
  volume    = {6},
  year      = {2005},
  url       = {https://doi.org/10.1186/1471-2105-6-S1-S3},
  doi       = {10.1186/1471-2105-6-s1-s3},
  biburl    = {},
  bibsource = {}
}

作者:

bigbio

数据集大小:

36.72 KB