英文

西班牙文RoBERTa-large模型,在BNE上进行训练并在西班牙跨语言自然语言推理(XNLI)数据集上进行微调

目录

单击展开
  • 模型描述
  • 用途和限制
  • 如何使用
  • 限制和偏见
  • 训练
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 评估
    • 变量和指标
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金支持
    • 引用信息
    • 免责声明

模型描述

roberta-large-bne-te 是一种用于西班牙语的文本蕴涵(TE)模型,是在 roberta-large-bne 模型的基础上进行微调的, RoBERTa 是一种大型预训练模型,利用截至2019年之前从2009年开始的网页爬取过程中获得的总共570GB的干净和去重的西班牙语文本进行处理。

用途和限制

roberta-large-bne-te 模型可用于识别文本蕴涵(TE)。该模型的训练数据集限制了其在所有用例中的泛化能力。

如何使用

这是如何使用该模型的方法:

from transformers import pipeline
from pprint import pprint

nlp = pipeline("text-classification", model="PlanTL-GOB-ES/roberta-large-bne-te")
example = "Mi cumpleaños es el 27 de mayo. Cumpliré años a finales de mayo."

te_results = nlp(example)
pprint(te_results)

限制和偏见

在提交时,我们尚未采取任何措施来估计模型中的偏见。然而,我们清楚我们的模型可能存在偏见,因为语料库是通过在多个网络来源上进行爬取的。我们打算将来在这些领域进行研究,如果完成,将更新这个模型卡片。

训练

我们使用了名为 XNLI dataset 的西班牙文TE数据集进行训练和评估。

训练过程

模型的训练批次大小为16,学习率为1e-5,迭代5轮。然后,我们使用相应开发集中的下游任务指标选择了最佳检查点,并在测试集上对其进行了评估。

评估

变量和指标

该模型的微调目标是最大化准确性。

评估结果

我们将 roberta-large-bne-te 应用于XNLI测试集,并与标准的多语言和单语言基准进行了评估:

Model XNLI (Accuracy)
roberta-large-bne 82.63
roberta-base-bne 80.16
BETO 81.30
mBERT 78.76
BERTIN 78.90
ELECTRA 78.78

更多详细信息,请查看官方 GitHub repository 中的微调和评估脚本。

附加信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单位(TeMU)( bsc-temu@bsc.es )

联系信息

欲了解更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

西班牙数字化和人工智能国家秘书处 (SEDIA) 版权所有 (2022)

许可信息

Apache License, Version 2.0

资金支持

此项工作由西班牙数字化和人工智能国家秘书处 (SEDIA) 在Plan-TL框架下提供资金支持。

引用信息

如果使用了该模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

单击展开

此代码库中发布的模型仅供一般用途,并可供第三方使用。这些模型可能存在偏见和/或其他不希望的扭曲。

当第三方使用这些模型(或基于这些模型的系统)部署或提供给其他方的系统和/或服务,或成为模型的用户时,他们应注意,他们有责任减轻使用所带来的风险,并在任何情况下遵守适用的法规,包括关于使用人工智能的法规。

无论模型所有者 (SEDIA - 国家数字化和人工智能秘书处) 还是创建者 (BSC - 巴塞罗那超级计算中心) 对于第三方使用这些模型所产生的结果都不承担责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA - Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC - Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.