英文

西班牙RoBERTa-large模型,基于BNE训练,用于西班牙问答语料库(SQAC)数据集。

目录

点击展开
  • 模型描述
  • 使用场景和限制
  • 如何使用
  • 限制和偏差
  • 训练
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 评估
    • 变量和指标
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 授权信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

rober ta-large-bne-sqac 是一个用于西班牙语的问答(QA)模型,是根据 roberta-large-bne 模型进行微调的, RoBERTa 是一个大型预训练模型,使用迄今为止最大的西班牙语语料库进行训练,总共570GB的干净和去重文本,由 National Library of Spain (Biblioteca Nacional de España) 在2009年至2019年期间进行的网络爬取处理而成。

使用场景和限制

rober ta-large-bne-sqac 模型可用于提取式问答。该模型受其训练数据集的限制,可能不能很好地适用于所有用例。

如何使用

from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
  
qa_results = nlp(text, context)
print(qa_results)

限制和偏差

在提交时,我们没有采取措施来估计模型中的偏差。但是,我们非常清楚我们的模型可能存在偏差,因为语料库是使用多个网络来源上的爬取技术收集的。我们打算在将来开展这些领域的研究,如果完成,将更新此模型文档。

训练

训练数据

我们使用了名为 SQAC corpus 的西班牙问答数据集进行训练和评估。

训练过程

该模型的批量大小为16,学习率为1e-5,训练了5个时期。然后,我们使用相应开发集中的下游任务指标选择了最佳检查点,并在测试集上进行了评估。

评估结果

我们在SQAC测试集上针对标准多语言和单语言基线对rober ta-large-bne-sqac进行了评估:

Model SQAC (F1)
roberta-large-bne-sqac 82.02
roberta-base-bne-sqac 79.23
BETO 79.23
mBERT 75.62
BERTIN 76.78
ELECTRA 73.83

更多详情,请查看官方 GitHub repository 中的微调和评估脚本。

附加信息

作者

巴塞罗那超级计算中心的Text Mining Unit (TeMU) (bsc-temu@bsc.es)

联系信息

如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es

版权

西班牙数字化与人工智能国家秘书处(SEDIA)版权所有(2022年)

授权信息

Apache License, Version 2.0

资助

该工作由西班牙数字化与人工智能国家秘书处(SEDIA)在Plan-TL框架下资助。

引用信息

如果您使用了该模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

本仓库中发布的模型旨在提供给第三方进行一般用途,并且对第三方可用。这些模型可能存在偏差和/或其他不希望的失真。

当第三方使用这些模型(或使用基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为该模型的用户时,他们应意识到减轻由其使用产生的风险是他们的责任,并且无论如何,遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(西班牙数字化和人工智能国家秘书处)或创建者(巴塞罗那超级计算中心)对于第三方对这些模型的使用所产生的结果概不负责。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.