英文

Spanish RoBERTa-base生物医学模型,针对PharmaCoNER数据集的命名实体识别(NER)任务进行了微调。

目录

点击展开
  • 模型描述
  • 预期用途和限制
  • 如何使用
  • 限制和偏差
  • 训练
  • 评估
  • 其他信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

这是 bsc-bio-ehr-es 模型的微调版本,是 RoBERTa 基础模型的一部分,并使用迄今为止最大的西班牙生物医学语料库进行了预训练,包括生物医学文档、临床病例和电子病历文档,总共处理了11亿个干净且去重的文本标记。

有关语料库和训练的更多详细信息,请查阅 bsc-bio-ehr-es 模型卡。

预期用途和限制

如何使用

限制和偏差

截至提交时,尚未采取任何措施来评估模型中的偏差。但我们很清楚,我们的模型可能存在偏差,因为语料库是通过对多个网络来源进行爬取技术采集而来。我们将来有意在这些领域开展研究,如果研究完成,将会更新此模型卡。

训练

使用的数据集是 PharmaCoNER , 这是一个带有物质、化合物和蛋白质实体注释的NER数据集。有关更多信息,请查阅 official website

评估

F1 分数:0.8913

有关评估详细信息,请访问我们的 GitHub repository

其他信息

作者

巴塞罗那超级计算中心(BSC)的文本挖掘单位(TeMU) ( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

西班牙数字化与人工智能国家秘书处(SEDIA)版权所有 (2022)

许可信息

Apache License, Version 2.0

资助

该工作得到了西班牙数字化与人工智能国家秘书处(SEDIA)在Plan-TL框架内的资助。

引用信息

如果您使用了这些模型,请引用我们的工作:

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}

免责声明

此存储库中发布的模型用于通用目的,可供第三方使用。这些模型可能存在偏见和/或其他不良变形。

当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方或成为模型的用户时,他们应意识到,他们有责任减轻使用中的风险,并始终遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA - 国家数字化与人工智能秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方对这些模型的使用所产生的结果承担任何责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA - Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC - Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.