英文

RoBERTa large trained with data from the National Library of Spain (BNE)

目录

点击展开
  • 概述
  • 模型描述
  • 使用方法和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

概述

  • 架构:roberta-large
  • 语言:西班牙语
  • 任务:填充掩码
  • 数据:BNE

模型描述

roberta-large-bne 是基于西班牙语的基于Transformer的掩码语言模型。它基于 RoBERTa 大型模型,并使用迄今为止最大的西班牙语语料库进行了预训练,总共处理了570GB的干净且去重的文本数据集,这些数据集是由 National Library of Spain (Biblioteca Nacional de España) 从2009年到2019年进行的网络爬取过程中编译而成。

使用方法和限制

robberta-large-bne 模型仅适用于填充掩码任务的即用型模型(可尝试使用推理API或阅读下一节)。然而,它也可用于非生成型下游任务(如问题回答、文本分类或命名实体识别)的微调。您可以使用原始模型进行填充掩码,或者对其进行微调以适用于下游任务。

如何使用

以下是如何使用此模型的方法:

>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-large-bne')
>>> pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje."))
[{'score': 0.0664491355419159,
  'sequence': ' Gracias a los datos de la BNE se ha podido conocer este modelo del lenguaje.',
  'token': 1910,
  'token_str': ' conocer'},
 {'score': 0.0492338091135025,
  'sequence': ' Gracias a los datos de la BNE se ha podido realizar este modelo del lenguaje.',
  'token': 2178,
  'token_str': ' realizar'},
 {'score': 0.03890657424926758,
  'sequence': ' Gracias a los datos de la BNE se ha podido reconstruir este modelo del lenguaje.',
  'token': 23368,
  'token_str': ' reconstruir'},
 {'score': 0.03662774711847305,
  'sequence': ' Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje.',
  'token': 3815,
  'token_str': ' desarrollar'},
 {'score': 0.030557377263903618,
  'sequence': ' Gracias a los datos de la BNE se ha podido estudiar este modelo del lenguaje.',
  'token': 6361,
  'token_str': ' estudiar'}]

以下是如何使用此模型在PyTorch中获取给定文本的特征的方法:

>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> text = "Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 19, 1024])

限制和偏见

在提交时,我们尚未采取任何措施来评估模型中嵌入的偏见和有害内容。然而,我们清楚地意识到我们的模型可能存在偏见,因为这些语料库是使用多个网络来源的爬取技术收集的。我们打算在将来对这些领域进行研究,并在完成后更新此模型卡片。

训练

训练数据

National Library of Spain (Biblioteca Nacional de España) 每年爬取所有.es域。训练语料库由这些爬取的WARC文件组成,从2009年到2019年进行。

为了获得高质量的训练语料库,该语料库经过了一系列处理操作,包括句子分割、语言检测、过滤不良格式的句子和重复内容去重等。在这个过程中,保留了文档边界。结果得到了2TB的西班牙语干净语料库。对语料库进行全局去重,得到了570GB的文本数据。

语料库的一些统计数据:

Corpora Number of documents Number of tokens Size (GB)
BNE 201,080,084 135,733,450,668 570GB

训练过程

训练语料库使用原始 RoBERTA 模型中的字节版本的字节对编码(BPE)进行了标记化,词汇表大小为50,262个标记。

roberta-large-bne 的预训练包括掩码语言模型训练,遵循RoBERTa large所采用的方法。训练总共耗时96小时,每个计算节点配备有4个NVIDIA V100 GPU,每个GPU的VRAM为16GB。

评估

在对下游任务进行微调时,该模型取得了以下结果:

Dataset Metric 1237321
MLDoc F1 0.9702
CoNLL-NERC F1 0.8823
CAPITEL-NERC F1 0.9051
PAWS-X F1 0.9150
UD-POS F1 0.9904
CAPITEL-POS F1 0.9856
SQAC F1 0.8202
STS Combined 0.8411
XNLI Accuracy 0.8263

有关更多评估细节,请访问我们的 GitHub repository paper

附加信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(Text Mining Unit,TeMU)( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权所有: Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) (2022年)

许可信息

本作品基于 Apache License, Version 2.0 许可。

资助

本工作受到 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 的资助,属于Plan-TL框架的一部分。

引用信息

如果您使用此模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

点击展开

本仓库中发布的模型仅用于一般目的,并提供给第三方使用。这些模型可能存在偏见和/或任何其他不良扭曲。

当第三方使用这些模型(或使用基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应注意,他们有责任减轻使用过程中的风险,并始终遵守适用的法规,包括有关使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA - 数字化和人工智能国务秘书处)及其创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型产生的结果承担责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.