英文

西班牙语生物医学临床语言模型

内容目录

点击展开
  • 模型描述
  • 预期用途和限制
  • 如何使用
  • 限制和偏见
  • 训练
  • 评估
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

西班牙语生物医学预训练语言模型。有关语料库、预训练和评估的更多详细信息,请查阅官方 repository

预期用途和限制

该模型只能用于掩盖语言建模,并执行填充掩码任务(可以尝试使用推理 API 或阅读下一节)。然而,它旨在用于下游任务(如命名实体识别或文本分类)的微调。

如何使用

限制和偏见

在提交时,我们尚未采取措施估计模型中的偏差。但是,我们非常清楚我们的模型可能存在偏差,因为语料库是使用多源网页爬取技术收集的。我们打算将来在这些领域开展研究,并在完成后更新此模型卡。

训练

分词和模型预训练

该模型是基于西班牙语生物医学临床语料库训练的 RoBERTa-based 模型。训练语料库使用了52,000个令牌的字节版本 Byte-Pair Encoding (BPE) 进行了标记,采用了 RoBERTa 基础模型的相同超参数,并在子词级别进行了掩码语言模型训练。训练持续了48小时,使用了16个 NVIDIA V100 GPU,每个 GPU 配备了16GB DDRAM,并使用了Adam优化器,峰值学习率为0.0005,有效批量大小为2,048个句子。

训练语料库和预处理

训练语料库由多个西班牙语生物医学语料库和超过278K份临床文件和记录收集而成。为了获得高质量的训练语料库并保留临床语言的特异性,仅对生物医学语料库进行了清洗,临床语料库保持未清洗状态。清洗操作包括:

  • 使用不同格式进行数据解析
    • 句子拆分
    • 语言检测
    • 过滤不规范的句子
    • 去除重复内容
    • 保留原始文档边界

然后,合并了生物医学语料库并进行了全局去重,最后将临床语料库与清洗后的生物医学语料库合并,组成了一个包含超过10亿个令牌的中等规模的西班牙语生物医学临床语料库。下表显示了各个清洗后语料库的某些基本统计信息:

Name No. tokens Description
1235321 903,558,13 Crawler of more than 3,000 URLs belonging to Spanish biomedical and health domains.
Clinical cases misc. 102,855,267 A miscellany of medical content, essentially clinical cases. Note that a clinical case report is a scientific publication where medical practitioners share patient cases and it is different from a clinical note or document.
EHR documents 95,267,20 Collection of more than 278K clinical documents, including discharge reports, clinical course notes and X-ray reports, for a total of 91M tokens.
1236321 60,007,289 Publications written in Spanish crawled from the Spanish SciELO server in 2017.
1237321 24,516,442 Biomedical Abbreviation Recognition and Resolution (BARR2) containing Spanish clinical case study sections from a variety of clinical disciplines.
Wikipedia_life_sciences 13,890,501 Wikipedia articles crawled 04/01/2021 with the 1238321 starting from the "Ciencias_de_la_vida" category up to a maximum of 5 subcategories. Multiple links to the same articles are then discarded to avoid repeating content.
Patents 13,463,387 Google Patent in Medical Domain for Spain (Spanish). The accepted codes (Medical Domain) for Json files of patents are: "A61B", "A61C","A61F", "A61H", "A61K", "A61L","A61M", "A61B", "A61P".
1239321 5,377,448 Spanish-side documents extracted from parallel corpora made out of PDF documents from the European Medicines Agency.
12310321 4,166,077 Spanish-side articles extracted from a collection of Spanish-English parallel corpus consisting of biomedical scientific literature. The collection of parallel resources is aggregated from the MedlinePlus source.
PubMed 1,858,966 Open-access articles from the PubMed repository crawled in 2017.

评估

该模型在三个命名实体识别(NER)任务上进行了微调,使用了三个临床NER数据集:

我们将NER任务视为标记分类问题,使用标准线性层和BIO标记方案。我们将我们的模型与通用领域的西班牙语 roberta-base-bne 、支持西班牙语的通用领域多语言模型 mBERT 、专业领域的英语模型 BioBERT ,以及基于持续预训练的三个专业领域模型 mBERT-Galén XLM-R-Galén BETO-Galén 进行了比较。下表显示了所得到的F1分数:

Tasks/Models bsc-bio-ehr-es XLM-R-Galén BETO-Galén mBERT-Galén mBERT BioBERT roberta-base-bne
PharmaCoNER 0.8913 0.8754 0.8537 0.8594 0.8671 0.8545 0.8474
CANTEMIST 0.8340 0.8078 0.8153 0.8168 0.8116 0.8070 0.7875
ICTUSnet 0.8756 0.8716 0.8498 0.8509 0.8631 0.8521 0.8677

可在官方 GitHub repository 中找到微调脚本。

附加信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)( bsc-temu@bsc.es )

联系信息

如需进一步信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有(2022 年)

许可信息

Apache License, Version 2.0

资助

该项目是由西班牙数字化与人工智能国务秘书处(SEDIA)在 Plan-TL 框架下资助的。

引用信息

如果您使用这些模型,请引用我们的工作:

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}

免责声明

点击展开

此存储库中发布的模型旨在供广泛用途使用,并可供第三方使用。这些模型可能存在偏见和/或任何其他不良失真。

当第三方使用这些模型(或基于这些模型的系统)部署或提供给其他方的系统和/或服务,或成为模型的用户时,他们应该注意,他们有责任减轻由使用导致的风险,并始终遵守适用法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA - 国务秘书处数字化与人工智能)和创建者(BSC - 巴塞罗那超级计算中心)不承担任何第三方使用这些模型产生的结果的责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.