数据集:
ncbi_disease
任务:
标记分类语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown该数据集包含NCBI疾病语料库的疾病名称和概念注释,该语料库是由793篇PubMed摘要完全注释而成,以作为生物医学自然语言处理社区的研究资源。
命名实体识别: Leaderboard
数据集中的文本为英文。相关的BCP-47代码为en。
数据集的实例包含一个tokens数组,ner_tags和一个id。数据集的一个实例示例:
{ 'tokens': ['Identification', 'of', 'APC2', ',', 'a', 'homologue', 'of', 'the', 'adenomatous', 'polyposis', 'coli', 'tumour', 'suppressor', '.'], 'ner_tags': [0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0], 'id': '0' }
数据分为训练集(5433个实例)、验证集(924个实例)和测试集(941个实例)。
该数据集的目标是通过提供高质量的黄金标准来改进疾病名称识别和规范化研究的最新技术,从而使机器学习方法在这些任务中得到更好的发展。
数据集由PubMed摘要组成。
谁是源语言的生产者?源语言的生产者是存储在PubMed上的出版物摘要的作者。
每个PubMed摘要都由两个标记员手动注释,注释疾病提及及其对应的医学主题词(MeSH®)或在线遗传性血管遗传学(OMIM®)的概念。使用PubTator进行了手动筛选,允许使用预注释作为手动注释的预处理步骤。随机配对了14个注释人员,并对不同的注释进行了讨论,以便在两个注释阶段达成共识。最后,对所有结果进行了全局一致性的检查,以确保一致性。
谁是标注者?标注者团队由14名在生物医学信息学研究领域有经验的人员组成,具有生物医学文本语料库注释的经验。
[N/A]
生物医学文献出版物中用自然语言编码的信息只有在能够有效和可靠地访问和分析该信息的方式可用时才有用。因此,自然语言处理和文本挖掘工具对于提取有价值的信息非常重要。该数据集提供了一个带注释的语料库,可以用于开发自动检测诸如疾病等重要生物医学概念的高效工具。
为了避免注释偏见,每个数据集都随机选择了一对注释者,以使每对注释者最多重叠两个数据集。
发现了一些未包含在MEDIC中的疾病概念。对于这些概念,我们决定包含适当的OMIM标识符。
此外,发现某些疾病提及不容易用标准分类表示。
另外,使用了为疾病名称规范化开发的推理方法,在每个PMID文档上进行了预注释,该方法正确处理缩写识别、强大的字符串匹配等。因此,人工注释人员使用预注释的文档作为起点,并允许查看每个预注释和计算置信度。
Rezarta Islamaj Doğan,Robert Leaman,Zhiyong Lu
PUBLIC DOMAIN NOTICE This work is a "United States Government Work" under the terms of the United States Copyright Act. It was written as part of the authors' official duties as a United States Government employee and thus cannot be copyrighted within the United States. The data is freely available to the public for use. The National Library of Medicine and the U.S. Government have not placed any restriction on its use or reproduction. Although all reasonable efforts have been taken to ensure the accuracy and reliability of the data and its source code, the NLM and the U.S. Government do not and cannot warrant the performance or results that may be obtained by using it. The NLM and the U.S. Government disclaim all warranties, express or implied, including warranties of performance, merchantability or fitness for any particular purpose. Please cite the authors in any work or product based on this material: An improved corpus of disease mentions in PubMed citations http://aclweb.org/anthology-new/W/W12/W12-2411.pdf NCBI Disease Corpus: A Resource for Disease Name Recognition and Normalization http://www.ncbi.nlm.nih.gov/pubmed/24393765 Disease Name Normalization with Pairwise Learning to Rank http://www.ncbi.nlm.nih.gov/pubmed/23969135
@article{dougan2014ncbi, title={NCBI disease corpus: a resource for disease name recognition and concept normalization}, author={Do{\u{g}}an, Rezarta Islamaj and Leaman, Robert and Lu, Zhiyong}, journal={Journal of biomedical informatics}, volume={47}, pages={1--10}, year={2014}, publisher={Elsevier} }
感谢 @edugp 添加此数据集。