西班牙语生物医学预训练语言模型。有关语料库、预训练和评估的更多详细信息,请查阅官方 repository


该模型只能用于掩盖语言建模,并执行填充掩码任务(可以尝试使用推理 API 或阅读下一节)。然而,它旨在用于下游任务(如命名实体识别或文本分类)的微调。






该模型是基于西班牙语生物医学临床语料库训练的 RoBERTa-based 模型。训练语料库使用了52,000个令牌的字节版本 Byte-Pair Encoding (BPE) 进行了标记,采用了 RoBERTa 基础模型的相同超参数,并在子词级别进行了掩码语言模型训练。训练持续了48小时,使用了16个 NVIDIA V100 GPU,每个 GPU 配备了16GB DDRAM,并使用了Adam优化器,峰值学习率为0.0005,有效批量大小为2,048个句子。



Name No. tokens Description
1235321 903,558,13 Crawler of more than 3,000 URLs belonging to Spanish biomedical and health domains.
Clinical cases misc. 102,855,267 A miscellany of medical content, essentially clinical cases. Note that a clinical case report is a scientific publication where medical practitioners share patient cases and it is different from a clinical note or document.
EHR documents 95,267,20 Collection of more than 278K clinical documents, including discharge reports, clinical course notes and X-ray reports, for a total of 91M tokens.
1236321 60,007,289 Publications written in Spanish crawled from the Spanish SciELO server in 2017.
1237321 24,516,442 Biomedical Abbreviation Recognition and Resolution (BARR2) containing Spanish clinical case study sections from a variety of clinical disciplines.
Wikipedia_life_sciences 13,890,501 Wikipedia articles crawled 04/01/2021 with the 1238321 starting from the "Ciencias_de_la_vida" category up to a maximum of 5 subcategories. Multiple links to the same articles are then discarded to avoid repeating content.
Patents 13,463,387 Google Patent in Medical Domain for Spain (Spanish). The accepted codes (Medical Domain) for Json files of patents are: "A61B", "A61C","A61F", "A61H", "A61K", "A61L","A61M", "A61B", "A61P".
1239321 5,377,448 Spanish-side documents extracted from parallel corpora made out of PDF documents from the European Medicines Agency.
12310321 4,166,077 Spanish-side articles extracted from a collection of Spanish-English parallel corpus consisting of biomedical scientific literature. The collection of parallel resources is aggregated from the MedlinePlus source.
PubMed 1,858,966 Open-access articles from the PubMed repository crawled in 2017.



我们将NER任务视为标记分类问题,使用标准线性层和BIO标记方案。我们将我们的模型与通用领域的西班牙语 roberta-base-bne 、支持西班牙语的通用领域多语言模型 mBERT 、专业领域的英语模型 BioBERT ,以及基于持续预训练的三个专业领域模型 mBERT-Galén XLM-R-Galén BETO-Galén 进行了比较。下表显示了所得到的F1分数:

Tasks/Models bsc-bio-ehr-es XLM-R-Galén BETO-Galén mBERT-Galén mBERT BioBERT roberta-base-bne
PharmaCoNER 0.8913 0.8754 0.8537 0.8594 0.8671 0.8545 0.8474
CANTEMIST 0.8340 0.8078 0.8153 0.8168 0.8116 0.8070 0.7875
ICTUSnet 0.8756 0.8716 0.8498 0.8509 0.8631 0.8521 0.8677

可在官方 GitHub repository 中找到微调脚本。



巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)( bsc-temu@bsc.es )


如需进一步信息,请发送电子邮件至 plantl-gob-es@bsc.es


版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有(2022 年)


Apache License, Version 2.0


该项目是由西班牙数字化与人工智能国务秘书处(SEDIA)在 Plan-TL 框架下资助的。



在任何情况下,模型的所有者(SEDIA - 国务秘书处数字化与人工智能)和创建者(BSC - 巴塞罗那超级计算中心)不承担任何第三方使用这些模型产生的结果的责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.