英文

西班牙语生物医学语言模型

目录

点击展开
  • 模型描述
  • 使用目的和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 标记化和模型预训练
    • 训练语料库和预处理
  • 评估
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金
    • 引用信息
    • 免责声明

模型描述

用于西班牙语的生物医学预训练语言模型。有关语料库、预训练和评估的更多详细信息,请查阅官方 repository

使用目的和限制

该模型仅可用于掩码语言建模,执行填充掩码任务(尝试使用推理API或阅读下一节)。但它可以用于下游任务(如命名实体识别或文本分类)的微调。

如何使用

限制和偏见

在提交时,我们没有采取措施来估计模型中的偏见。然而,我们充分意识到我们的模型可能存在偏见,因为语料库是使用多个网络来源的网络抓取技术收集的。我们打算未来在这些领域开展研究,如果有完成的研究,将更新此模型卡片。

训练

标记化和模型预训练

该模型是基于生物医学语料库在西班牙语上训练的 RoBERTa-based 模型。训练语料库使用了原始 RoBERTA 模型中使用的字节版本的 Byte-Pair Encoding (BPE) 进行标记化,并采用了52,000个标记的词汇表。预训练采用了掩码语言模型在子词级别上的训练,遵循RoBERTa基础模型的方法,并使用了与原始工作中相同的超参数。训练总共持续了48个小时,使用了16个NVIDIA V100 16GB DDRAM的GPU,使用了Adam优化器,峰值学习率为0.0005,有效批量大小为2,048个句子。

训练语料库和预处理

训练语料库由多个西班牙语生物医学语料库组成,这些语料库是从公开可用的语料库和网络爬虫中收集的。为了获得高质量的训练语料库,应用了以下操作的清洁流程:

  • 数据解析为不同格式
    • 句子拆分
    • 语言检测
    • 过滤不完整的句子
    • 去重复的内容
    • 保留原始文档边界

最后,语料库被连接起来,并对语料库进行了全局去重复处理。结果是一个约963M个标记的中等大小的西班牙语生物医学语料库。下表显示了各个清洗后语料库的一些基本统计信息:

Name No. tokens Description
1235321 903,558,136 Crawler of more than 3,000 URLs belonging to Spanish biomedical and health domains.
Clinical cases misc. 102,855,267 A miscellany of medical content, essentially clinical cases. Note that a clinical case report is a scientific publication where medical practitioners share patient cases and it is different from a clinical note or document.
1236321 60,007,289 Publications written in Spanish crawled from the Spanish SciELO server in 2017.
1237321 24,516,442 Biomedical Abbreviation Recognition and Resolution (BARR2) containing Spanish clinical case study sections from a variety of clinical disciplines.
Wikipedia_life_sciences 13,890,501 Wikipedia articles crawled 04/01/2021 with the 1238321 starting from the "Ciencias_de_la_vida" category up to a maximum of 5 subcategories. Multiple links to the same articles are then discarded to avoid repeating content.
Patents 13,463,387 Google Patent in Medical Domain for Spain (Spanish). The accepted codes (Medical Domain) for Json files of patents are: "A61B", "A61C","A61F", "A61H", "A61K", "A61L","A61M", "A61B", "A61P".
1239321 5,377,448 Spanish-side documents extracted from parallel corpora made out of PDF documents from the European Medicines Agency.
12310321 4,166,077 Spanish-side articles extracted from a collection of Spanish-English parallel corpus consisting of biomedical scientific literature. The collection of parallel resources is aggregated from the MedlinePlus source.
PubMed 1,858,966 Open-access articles from the PubMed repository crawled in 2017.

评估

该模型已经在三个命名实体识别(NER)任务上进行了微调,使用了三个临床NER数据集:

我们将NER任务视为一个标记分类问题,采用标准线性层和BIO标签模式。我们将我们的模型与通用领域的西班牙语 roberta-base-bne 、支持西班牙语的通用领域多语言模型 mBERT 、特定领域的英语模型 BioBERT 以及基于持续预训练的三个特定领域模型 mBERT-Galén XLM-R-Galén BETO-Galén 进行了比较。

下表显示了获得的F1分数:

Tasks/Models bsc-bio-es XLM-R-Galén BETO-Galén mBERT-Galén mBERT BioBERT roberta-base-bne
PharmaCoNER 0.8907 0.8754 0.8537 0.8594 0.8671 0.8545 0.8474
CANTEMIST 0.8220 0.8078 0.8153 0.8168 0.8116 0.8070 0.7875
ICTUSnet 0.8727 0.8716 0.8498 0.8509 0.8631 0.8521 0.8677

微调脚本可以在官方GitHub repository 中找到。

附加信息

作者

巴塞罗那超级计算中心(BSC)文本挖掘团队(TeMU)(bsc-temu@bsc.es)

联系信息

如需进一步信息,请发送电子邮件至plantl-gob-es@bsc.es

版权

版权归西班牙数字化和人工智能秘书处(SEDIA)所有(2022年)

许可信息

Apache License, Version 2.0

资金

此工作得到了西班牙数字化和人工智能秘书处(SEDIA)在计划- TL框架内的资助。

引用信息

如果您使用这些模型,请引用我们的工作:

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}

免责声明

点击展开

本仓库中发布的模型仅用于普遍用途,可供第三方使用。这些模型可能存在偏见和/或其他不必要的失真。

当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方或成为模型的用户时,应注意自己有责任减轻由其使用造成的风险,并在任何情况下遵守适用法规,包括有关使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA-西班牙数字化和人工智能秘书处)和创建者(BSC-巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的结果承担责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.