英文

基于BNE预训练的Spanish RoBERTa-base模型在Spanish Question Answering Corpus(SQAC)数据集上训练。

目录

点击展开
  • 模型描述
  • 预期用途和限制条件
  • 如何使用
  • 限制和偏差
  • 训练
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 评估
    • 变量和度量标准
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

roberta-base-bne-sqac 是一个用于西班牙语的问答(QA)模型,是由 roberta-base-bne 模型微调得到的, RoBERTa 是一个基础模型,使用迄今为止已知最大的西班牙语语料库进行预训练,包含570GB的干净和去重文本,这些文本是根据2009年至2019年 National Library of Spain (Biblioteca Nacional de España) 进行网络爬取的。

预期用途和限制条件

roberta-base-bne-sqac 模型可用于提取式问答。该模型受其训练数据集的限制,可能无法适用于所有用例。

如何使用

from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-base-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
  
qa_results = nlp(text, context)
print(qa_results)

限制和偏差

在提交时,尚未采取措施估计模型中嵌入的偏差。然而,我们充分意识到我们的模型可能存在偏差,因为语料库是通过多个网络来源的爬取技术收集而来的。我们打算在未来在这些领域进行研究,如果完成,将更新此模型卡。

训练

训练数据

我们使用了一个名为 SQAC corpus 的西班牙语问答数据集进行训练和评估。

训练过程

模型的批量大小为16,学习率为5e-5,训练5个epoch。然后,我们使用相应开发集中的下游任务度量选择了最佳检查点,然后在测试集上进行了评估。

评估结果

我们将roberta-base-bne-sqac模型与标准的多语言和单语基线模型在SQAC测试集上进行了评估:

Model SQAC (F1)
roberta-large-bne-sqac 82.02
roberta-base-bne-sqac 79.23
BETO 79.23
mBERT 75.62
BERTIN 76.78
ELECTRA 73.83

更多细节,请查看官方 GitHub repository 中的微调和评估脚本。

附加信息

作者

巴塞罗那超级计算中心(BSC)的Text Mining Unit(TeMU)( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

西班牙数字化与人工智能国家秘书处(SEDIA)版权所有(2022年)

许可信息

Apache License, Version 2.0

资助

该工作得到了西班牙数字化与人工智能国家秘书处(SEDIA)在Plan-TL框架下的资助。

引用信息

如果您使用这个模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

本仓库中发布的模型旨在用于一般用途,并可提供给第三方使用。这些模型可能存在偏见或其他不希望的扭曲。

当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他第三方,或者成为这些模型的用户时,他们应意识到自己有责任减轻使用过程中的风险,并且无论如何,应遵守适用法规,包括关于使用人工智能的法规。

无论是模型所有者(SEDIA-数字化与人工智能国家秘书处)还是创建者(BSC-巴塞罗那超级计算中心),均不对第三方使用这些模型所产生的结果承担任何责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.