数据集:

bigbio/pharmaconer

语言:

es

计算机处理:

monolingual

许可:

cc-by-4.0
英文

PharmaCoNER数据集的数据卡

子任务1

PharmaCoNER:药物物质、化合物和蛋白质命名实体识别任务

该数据集是为PharmaCoNER任务设计的,由Plan de Impulso de las Tecnologías del Lenguaje赞助。

它是从西班牙临床案例语料库(SPACCC)中提取的手动分类临床案例研究集合,该语料库是一个汇集了来自SciELO(Scientific Electronic Library Online)的西班牙医学出版物的开放获取电子库。

整个实体提及的注释是由药物化学专家进行的,包括以下4种实体类型:NORMALIZABLES、NO_NORMALIZABLES、PROTEINAS和UNCLEAR。

PharmaCoNER语料库总共包含396,988个词和1,000个临床案例,随机分成3个子集。训练集包含500个临床案例,而开发集和测试集各包含250个临床案例。

如需更多信息,请访问 https://temu.bsc.es/pharmaconer/ 或发送电子邮件至encargo-pln-life@bsc.es

子任务1:NER偏移和实体类型分类

第一个子任务是基于实体或基于实例的评估,要求系统输出与每个实体标记的开始和结束位置完全匹配,同时匹配黄金标准注释的实体类型。

子任务2

PharmaCoNER:药物物质、化合物和蛋白质命名实体识别任务

该数据集是为PharmaCoNER任务设计的,由Plan de Impulso de las Tecnologías del Lenguaje赞助。

它是从西班牙临床案例语料库(SPACCC)中提取的手动分类临床案例研究集合,该语料库是一个汇集了来自SciELO(Scientific Electronic Library Online)的西班牙医学出版物的开放获取电子库。

整个实体提及的注释是由药物化学专家进行的,包括以下4种实体类型:NORMALIZABLES、NO_NORMALIZABLES、PROTEINAS和UNCLEAR。

PharmaCoNER语料库总共包含396,988个词和1,000个临床案例,随机分成3个子集。训练集包含500个临床案例,而开发集和测试集各包含250个临床案例。

如需更多信息,请访问 https://temu.bsc.es/pharmaconer/ 或发送电子邮件至encargo-pln-life@bsc.es

子任务2:概念索引

第二个子任务是为每个文档生成一份唯一的SNOMED概念标识符列表。将预测结果与手动注释的化合物和药物物质对应的概念标识符进行比较。

完整任务

PharmaCoNER:药物物质、化合物和蛋白质命名实体识别任务

该数据集是为PharmaCoNER任务设计的,由Plan de Impulso de las Tecnologías del Lenguaje赞助。

它是从西班牙临床案例语料库(SPACCC)中提取的手动分类临床案例研究集合,该语料库是一个汇集了来自SciELO(Scientific Electronic Library Online)的西班牙医学出版物的开放获取电子库。

整个实体提及的注释是由药物化学专家进行的,包括以下4种实体类型:NORMALIZABLES、NO_NORMALIZABLES、PROTEINAS和UNCLEAR。

PharmaCoNER语料库总共包含396,988个词和1,000个临床案例,随机分成3个子集。训练集包含500个临床案例,而开发集和测试集各包含250个临床案例。

如需更多信息,请访问 https://temu.bsc.es/pharmaconer/ 或发送电子邮件至encargo-pln-life@bsc.es

子任务1:NER偏移和实体类型分类

子任务2:概念索引

引用信息

@inproceedings{gonzalez2019pharmaconer,
    title = "PharmaCoNER: Pharmacological Substances, Compounds and proteins Named Entity Recognition track",
    author = "Gonzalez-Agirre, Aitor  and
      Marimon, Montserrat  and
      Intxaurrondo, Ander  and
      Rabal, Obdulia  and
      Villegas, Marta  and
      Krallinger, Martin",
    booktitle = "Proceedings of The 5th Workshop on BioNLP Open Shared Tasks",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5701",
    doi = "10.18653/v1/D19-5701",
    pages = "1--10",
}