数据集:

PlanTL-GOB-ES/pharmaconer

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

批注创建人:

expert-generated

其他:

biomedical clinical spanish

许可:

cc-by-4.0

数据集介绍文件清单

英文

PharmaCoNER

数据集描述

人工分类的西班牙临床病例研究收集。

主页: zenodo
论文: PharmaCoNER: Pharmacological Substances, Compounds and proteins Named Entity Recognition track
联系人: encargo-pln-life@bsc.es

数据集摘要

人工分类的临床病例研究集合，来源于西班牙临床案例语料库（SPACCC），一个收集西班牙医学出版物的开放访问电子图书馆。

PharmaCoNER数据集包含总共 396,988 个词和 1,000 个随机抽样的临床病例，分为 3 个子集。训练集包含 500 个临床病例，开发集和测试集各包含 250 个临床病例。在训练示例方面，每个集合中分别有 8129、3787 和 3952 个注释句子。原始数据集以 Brat 格式分发。

整个实体提及的注释是由领域专家进行的。它包括以下 4 种实体类型：NORMALIZABLES，NO_NORMALIZABLES，PROTEINAS 和UNCLEAR。

此数据集设计用于PharmaCoNER任务，由 Plan-TL 赞助。

欲了解更多信息，请访问 the official website 。

支持的任务

命名实体识别（NER）

语言

西班牙语（es）

目录结构

README.md
pharmaconer.py
dev-set_1.1.conll
test-set_1.1.conll
train-set_1.1.conll

数据集结构

数据实例

三个四列文件，每个文件对应一个分割集。

数据字段

每个文件有四列：

第一列：单词形式或标点符号
第二列：原始BRAT文件名
第三列：跨度
第四列：IOB标签

例子

La                S0004-06142006000900008-1  123_125  O
paciente          S0004-06142006000900008-1  126_134  O
tenía             S0004-06142006000900008-1  135_140  O
antecedentes      S0004-06142006000900008-1  141_153  O
de                S0004-06142006000900008-1  154_156  O
hipotiroidismo    S0004-06142006000900008-1  157_171  O
,                 S0004-06142006000900008-1  171_172  O
hipertensión      S0004-06142006000900008-1  173_185  O
arterial          S0004-06142006000900008-1  186_194  O
en                S0004-06142006000900008-1  195_197  O
tratamiento       S0004-06142006000900008-1  198_209  O
habitual          S0004-06142006000900008-1  210_218  O
con               S0004-06142006000900008-1  219-222  O
atenolol          S0004-06142006000900008-1  223_231  B-NORMALIZABLES
y                 S0004-06142006000900008-1  232_233  O
enalapril         S0004-06142006000900008-1  234_243  B-NORMALIZABLES

数据分割

Split	Size
train	8,129
dev	3,787
test	3,952

数据集创建

策划理由

为了与其他语言的类似数据集兼容，我们尽可能接近现有的策划指南。

源数据

初始数据收集和归一化

人工分类的临床案例报告部分集合。临床病例不限于单个医学学科，涵盖多种医学学科，包括肿瘤学，泌尿学，心脏病学，肺病学或传染病学。这对于涵盖多样化的化学物质和药物是关键的。

谁是源语言的制作者？

人类，没有机器生成的数据。

注释

注释过程

PharmaCoNER语料库的注释过程借鉴了以前用于BioCreative CHEMDNER和GPRO任务的注释方案和语料库，将这些任务使用的指南翻译为西班牙语，并根据临床导向文档的特点和需求修改注释标准和规则，以涵盖医学信息需求。此适配过程是与执业医生和药物化学专家合作进行的。指南的适配、翻译和改进是在SPACCC语料库的样本集上完成的，并通过注释者一致性分析（IAA）研究的迭代过程进行了关联，直到达到了高水平的IAA注释质量。

谁是注释者？

执业医生和药物化学专家。

个人和敏感信息

没有包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

该语料库有助于西班牙语的医学语言模型的开发。

偏见讨论

[N/A]

附加信息

数据集策划者

巴塞罗那超级计算中心（BSC）的文本挖掘单元（TeMU）（ bsc-temu@bsc.es ）。

欲了解更多信息，请发送电子邮件至 plantl-gob-es@bsc.es 。

该工作是在 Plan-TL 框架下由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 赞助的。

许可信息

本作品根据 CC Attribution 4.0 International 许可证获得许可。

引用信息

@inproceedings{,
    title = "PharmaCoNER: Pharmacological Substances, Compounds and proteins Named Entity Recognition track",
    author = "Gonzalez-Agirre, Aitor  and
      Marimon, Montserrat  and
      Intxaurrondo, Ander  and
      Rabal, Obdulia  and
      Villegas, Marta  and
      Krallinger, Martin",
    booktitle = "Proceedings of The 5th Workshop on BioNLP Open Shared Tasks",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5701",
    doi = "10.18653/v1/D19-5701",
    pages = "1--10",
}

贡献

[N/A]

作者:

PlanTL-GOB-ES

数据集大小:

16.64 MB