英文

西班牙语生物医学语言模型

目录

点击展开
  • 模型描述
  • 预期用途和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 分词和模型预训练
    • 训练语料库和预处理
  • 评估
  • 附加信息
    • 作者
    • 联系信息
    • 版权所有
    • 许可信息
    • 资金支持
    • 免责声明

模型描述

西班牙语生物医学预训练语言模型。有关语料库、预训练和评估的更多详细信息,请参阅官方 repository 并阅读我们的 preprint

预期用途和限制

该模型仅适用于掩码语言模型的填充任务(尝试使用推理API或阅读下一节)。然而,它旨在在下游任务(如命名实体识别或文本分类)上进行微调。

如何使用

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")
# Output
[
  {
    "sequence": " El único antecedente personal a reseñar era la hipertensión arterial.",
    "score": 0.9855039715766907,
    "token": 3529,
    "token_str": " hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la diabetes arterial.",
    "score": 0.0039140828885138035,
    "token": 1945,
    "token_str": " diabetes"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la hipotensión arterial.",
    "score": 0.002484665485098958,
    "token": 11483,
    "token_str": " hipotensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la Hipertensión arterial.",
    "score": 0.0023484621196985245,
    "token": 12238,
    "token_str": " Hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la presión arterial.",
    "score": 0.0008009297889657319,
    "token": 2267,
    "token_str": " presión"
  }
]

训练

分词和模型预训练

该模型是在西班牙语生物医学语料库上训练的 RoBERTa-based 模型。该语料库是从多个来源收集的,并使用字节版本的 Byte-Pair Encoding (BPE) 进行分词,词汇表大小为52,000个标记。预训练是基于子词级别的掩码语言模型训练,遵循 RoBERTa 基础模型的方法,使用与原始工作相同的超参数。训练共持续了48小时,使用了16个NVIDIA V100 GPU,每个GPU具有16GB的DDRAM,使用Adam优化器,峰值学习率为0.0005,有效批次大小为2,048个句子。

训练语料库和预处理

训练语料库由多个西班牙语生物医学语料库组成,从公开可用的语料库和网络爬虫中收集而来。为了获得高质量的训练语料库,应用了以下操作的清洗流程:

  • 数据解析为不同格式
    • 句子分割
    • 语言检测
    • 过滤不合规范的句子
    • 重复内容去重
    • 保留原始文档边界

最后,将语料库连接在一起,对语料库进行全局去重。结果是一个由约963M个标记组成的中等大小的西班牙语生物医学语料库。下表显示了个别清理后语料库的一些基本统计信息:

Name No. tokens Description
1239321 745,705,946 Crawler of more than 3,000 URLs belonging to Spanish biomedical and health domains.
Clinical cases misc. 102,855,267 A miscellany of medical content, essentially clinical cases. Note that a clinical case report is a scientific publication where medical practitioners share patient cases and it is different from a clinical note or document.
12310321 60,007,289 Publications written in Spanish crawled from the Spanish SciELO server in 2017.
12311321 24,516,442 Biomedical Abbreviation Recognition and Resolution (BARR2) containing Spanish clinical case study sections from a variety of clinical disciplines.
Wikipedia_life_sciences 13,890,501 Wikipedia articles crawled 04/01/2021 with the 12312321 starting from the "Ciencias_de_la_vida" category up to a maximum of 5 subcategories. Multiple links to the same articles are then discarded to avoid repeating content.
Patents 13,463,387 Google Patent in Medical Domain for Spain (Spanish). The accepted codes (Medical Domain) for Json files of patents are: "A61B", "A61C","A61F", "A61H", "A61K", "A61L","A61M", "A61B", "A61P".
12313321 5,377,448 Spanish-side documents extracted from parallel corpora made out of PDF documents from the European Medicines Agency.
12314321 4,166,077 Spanish-side articles extracted from a collection of Spanish-English parallel corpus consisting of biomedical scientific literature. The collection of parallel resources are aggregated from the MedlinePlus source.
PubMed 1,858,966 Open-access articles from the PubMed repository crawled in 2017.

评估

该模型已在命名实体识别(NER)上进行了评估,评估使用了以下数据集:

评估结果与 mBERT BETO 模型进行了比较:

F1 - Precision - Recall roberta-base-biomedical-es mBERT BETO
PharmaCoNER 89.48 - 87.85 - 91.18 87.46 - 86.50 - 88.46 88.18 - 87.12 - 89.28
CANTEMIST 83.87 - 81.70 - 86.17 82.61 - 81.12 - 84.15 82.42 - 80.91 - 84.00
ICTUSnet 88.12 - 85.56 - 90.83 86.75 - 83.53 - 90.23 85.95 - 83.10 - 89.02

附加信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU) ( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权所有

西班牙数字化和人工智能国家秘书处(SEDIA) 版权所有(2022年)

许可信息

Apache License, Version 2.0

资金支持

本工作得到西班牙数字化和人工智能国家秘书处(SEDIA)在 Plan-TL 框架下的资助。

引用信息

如果您使用了我们的模型,请引用我们的最新预印本:

@misc{carrino2021biomedical,
      title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2109.03570},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

如果您使用了我们的医学爬虫语料库,请引用预印本:

@misc{carrino2021spanish,
      title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
      year={2021},
      eprint={2109.07765},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

免责声明

点击展开

本存储库中发布的模型仅用于通用目的,并提供给第三方使用。这些模型可能存在偏见和/或任何其他不希望的扭曲。

当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应注意,他们有责任减轻由其使用引起的风险,并始终遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA - 西班牙数字化和人工智能国家秘书处)和创建者(BSC - 巴塞罗那超级计算中心)对于第三方对这些模型的使用所产生的结果概不负责。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.