数据集:

PlanTL-GOB-ES/pharmaconer

英文

PharmaCoNER

数据集描述

人工分类的西班牙临床病例研究收集。

数据集摘要

人工分类的临床病例研究集合,来源于西班牙临床案例语料库(SPACCC),一个收集西班牙医学出版物的开放访问电子图书馆。

PharmaCoNER数据集包含总共 396,988 个词和 1,000 个随机抽样的临床病例,分为 3 个子集。训练集包含 500 个临床病例,开发集和测试集各包含 250 个临床病例。在训练示例方面,每个集合中分别有 8129、3787 和 3952 个注释句子。原始数据集以 Brat 格式分发。

整个实体提及的注释是由领域专家进行的。它包括以下 4 种实体类型:NORMALIZABLES,NO_NORMALIZABLES,PROTEINAS 和UNCLEAR。

此数据集设计用于PharmaCoNER任务,由 Plan-TL 赞助。

欲了解更多信息,请访问 the official website

支持的任务

命名实体识别(NER)

语言

  • 西班牙语(es)

目录结构

  • README.md
  • pharmaconer.py
  • dev-set_1.1.conll
  • test-set_1.1.conll
  • train-set_1.1.conll

数据集结构

数据实例

三个四列文件,每个文件对应一个分割集。

数据字段

每个文件有四列:

  • 第一列:单词形式或标点符号
  • 第二列:原始BRAT文件名
  • 第三列:跨度
  • 第四列:IOB标签
例子
La                S0004-06142006000900008-1  123_125  O
paciente          S0004-06142006000900008-1  126_134  O
tenía             S0004-06142006000900008-1  135_140  O
antecedentes      S0004-06142006000900008-1  141_153  O
de                S0004-06142006000900008-1  154_156  O
hipotiroidismo    S0004-06142006000900008-1  157_171  O
,                 S0004-06142006000900008-1  171_172  O
hipertensión      S0004-06142006000900008-1  173_185  O
arterial          S0004-06142006000900008-1  186_194  O
en                S0004-06142006000900008-1  195_197  O
tratamiento       S0004-06142006000900008-1  198_209  O
habitual          S0004-06142006000900008-1  210_218  O
con               S0004-06142006000900008-1  219-222  O
atenolol          S0004-06142006000900008-1  223_231  B-NORMALIZABLES
y                 S0004-06142006000900008-1  232_233  O
enalapril         S0004-06142006000900008-1  234_243  B-NORMALIZABLES

数据分割

Split Size
train 8,129
dev 3,787
test 3,952

数据集创建

策划理由

为了与其他语言的类似数据集兼容,我们尽可能接近现有的策划指南。

源数据

初始数据收集和归一化

人工分类的临床案例报告部分集合。临床病例不限于单个医学学科,涵盖多种医学学科,包括肿瘤学,泌尿学,心脏病学,肺病学或传染病学。这对于涵盖多样化的化学物质和药物是关键的。

谁是源语言的制作者?

人类,没有机器生成的数据。

注释

注释过程

PharmaCoNER语料库的注释过程借鉴了以前用于BioCreative CHEMDNER和GPRO任务的注释方案和语料库,将这些任务使用的指南翻译为西班牙语,并根据临床导向文档的特点和需求修改注释标准和规则,以涵盖医学信息需求。此适配过程是与执业医生和药物化学专家合作进行的。指南的适配、翻译和改进是在SPACCC语料库的样本集上完成的,并通过注释者一致性分析(IAA)研究的迭代过程进行了关联,直到达到了高水平的IAA注释质量。

谁是注释者?

执业医生和药物化学专家。

个人和敏感信息

没有包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

该语料库有助于西班牙语的医学语言模型的开发。

偏见讨论

[N/A]

附加信息

数据集策划者

巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)( bsc-temu@bsc.es )。

欲了解更多信息,请发送电子邮件至 plantl-gob-es@bsc.es 。

该工作是在 Plan-TL 框架下由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 赞助的。

许可信息

本作品根据 CC Attribution 4.0 International 许可证获得许可。

西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022年)

引用信息

@inproceedings{,
    title = "PharmaCoNER: Pharmacological Substances, Compounds and proteins Named Entity Recognition track",
    author = "Gonzalez-Agirre, Aitor  and
      Marimon, Montserrat  and
      Intxaurrondo, Ander  and
      Rabal, Obdulia  and
      Villegas, Marta  and
      Krallinger, Martin",
    booktitle = "Proceedings of The 5th Workshop on BioNLP Open Shared Tasks",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5701",
    doi = "10.18653/v1/D19-5701",
    pages = "1--10",
}

贡献

[N/A]