数据集:
PlanTL-GOB-ES/pharmaconer
人工分类的西班牙临床病例研究收集。
人工分类的临床病例研究集合,来源于西班牙临床案例语料库(SPACCC),一个收集西班牙医学出版物的开放访问电子图书馆。
PharmaCoNER数据集包含总共 396,988 个词和 1,000 个随机抽样的临床病例,分为 3 个子集。训练集包含 500 个临床病例,开发集和测试集各包含 250 个临床病例。在训练示例方面,每个集合中分别有 8129、3787 和 3952 个注释句子。原始数据集以 Brat 格式分发。
整个实体提及的注释是由领域专家进行的。它包括以下 4 种实体类型:NORMALIZABLES,NO_NORMALIZABLES,PROTEINAS 和UNCLEAR。
此数据集设计用于PharmaCoNER任务,由 Plan-TL 赞助。
欲了解更多信息,请访问 the official website 。
命名实体识别(NER)
三个四列文件,每个文件对应一个分割集。
每个文件有四列:
La S0004-06142006000900008-1 123_125 O paciente S0004-06142006000900008-1 126_134 O tenía S0004-06142006000900008-1 135_140 O antecedentes S0004-06142006000900008-1 141_153 O de S0004-06142006000900008-1 154_156 O hipotiroidismo S0004-06142006000900008-1 157_171 O , S0004-06142006000900008-1 171_172 O hipertensión S0004-06142006000900008-1 173_185 O arterial S0004-06142006000900008-1 186_194 O en S0004-06142006000900008-1 195_197 O tratamiento S0004-06142006000900008-1 198_209 O habitual S0004-06142006000900008-1 210_218 O con S0004-06142006000900008-1 219-222 O atenolol S0004-06142006000900008-1 223_231 B-NORMALIZABLES y S0004-06142006000900008-1 232_233 O enalapril S0004-06142006000900008-1 234_243 B-NORMALIZABLES
Split | Size |
---|---|
train | 8,129 |
dev | 3,787 |
test | 3,952 |
为了与其他语言的类似数据集兼容,我们尽可能接近现有的策划指南。
人工分类的临床案例报告部分集合。临床病例不限于单个医学学科,涵盖多种医学学科,包括肿瘤学,泌尿学,心脏病学,肺病学或传染病学。这对于涵盖多样化的化学物质和药物是关键的。
谁是源语言的制作者?人类,没有机器生成的数据。
PharmaCoNER语料库的注释过程借鉴了以前用于BioCreative CHEMDNER和GPRO任务的注释方案和语料库,将这些任务使用的指南翻译为西班牙语,并根据临床导向文档的特点和需求修改注释标准和规则,以涵盖医学信息需求。此适配过程是与执业医生和药物化学专家合作进行的。指南的适配、翻译和改进是在SPACCC语料库的样本集上完成的,并通过注释者一致性分析(IAA)研究的迭代过程进行了关联,直到达到了高水平的IAA注释质量。
谁是注释者?执业医生和药物化学专家。
没有包含个人或敏感信息。
该语料库有助于西班牙语的医学语言模型的开发。
[N/A]
巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)( bsc-temu@bsc.es )。
欲了解更多信息,请发送电子邮件至 plantl-gob-es@bsc.es 。
该工作是在 Plan-TL 框架下由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 赞助的。
本作品根据 CC Attribution 4.0 International 许可证获得许可。
西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022年)
@inproceedings{, title = "PharmaCoNER: Pharmacological Substances, Compounds and proteins Named Entity Recognition track", author = "Gonzalez-Agirre, Aitor and Marimon, Montserrat and Intxaurrondo, Ander and Rabal, Obdulia and Villegas, Marta and Krallinger, Martin", booktitle = "Proceedings of The 5th Workshop on BioNLP Open Shared Tasks", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D19-5701", doi = "10.18653/v1/D19-5701", pages = "1--10", }
[N/A]