roberta-large-bne 是基于西班牙语的基于Transformer的掩码语言模型。它基于 RoBERTa 大型模型,并使用迄今为止最大的西班牙语语料库进行了预训练,总共处理了570GB的干净且去重的文本数据集,这些数据集是由 National Library of Spain (Biblioteca Nacional de España) 从2009年到2019年进行的网络爬取过程中编译而成。
robberta-large-bne 模型仅适用于填充掩码任务的即用型模型(可尝试使用推理API或阅读下一节)。然而,它也可用于非生成型下游任务(如问题回答、文本分类或命名实体识别)的微调。您可以使用原始模型进行填充掩码,或者对其进行微调以适用于下游任务。
>>> from transformers import pipeline >>> from pprint import pprint >>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-large-bne') >>> pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje.")) [{'score': 0.0664491355419159, 'sequence': ' Gracias a los datos de la BNE se ha podido conocer este modelo del lenguaje.', 'token': 1910, 'token_str': ' conocer'}, {'score': 0.0492338091135025, 'sequence': ' Gracias a los datos de la BNE se ha podido realizar este modelo del lenguaje.', 'token': 2178, 'token_str': ' realizar'}, {'score': 0.03890657424926758, 'sequence': ' Gracias a los datos de la BNE se ha podido reconstruir este modelo del lenguaje.', 'token': 23368, 'token_str': ' reconstruir'}, {'score': 0.03662774711847305, 'sequence': ' Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje.', 'token': 3815, 'token_str': ' desarrollar'}, {'score': 0.030557377263903618, 'sequence': ' Gracias a los datos de la BNE se ha podido estudiar este modelo del lenguaje.', 'token': 6361, 'token_str': ' estudiar'}]
>>> from transformers import RobertaTokenizer, RobertaModel >>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/roberta-large-bne') >>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/roberta-large-bne') >>> text = "Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje." >>> encoded_input = tokenizer(text, return_tensors='pt') >>> output = model(**encoded_input) >>> print(output.last_hidden_state.shape) torch.Size([1, 19, 1024])
National Library of Spain (Biblioteca Nacional de España) 每年爬取所有.es域。训练语料库由这些爬取的WARC文件组成,从2009年到2019年进行。
Corpora | Number of documents | Number of tokens | Size (GB) |
BNE | 201,080,084 | 135,733,450,668 | 570GB |
训练语料库使用原始 RoBERTA 模型中的字节版本的字节对编码(BPE)进行了标记化,词汇表大小为50,262个标记。
roberta-large-bne 的预训练包括掩码语言模型训练,遵循RoBERTa large所采用的方法。训练总共耗时96小时,每个计算节点配备有4个NVIDIA V100 GPU,每个GPU的VRAM为16GB。
Dataset | Metric | 1237321 |
MLDoc | F1 | 0.9702 |
CoNLL-NERC | F1 | 0.8823 |
CAPITEL-NERC | F1 | 0.9051 |
PAWS-X | F1 | 0.9150 |
UD-POS | F1 | 0.9904 |
CAPITEL-POS | F1 | 0.9856 |
SQAC | F1 | 0.8202 |
STS | Combined | 0.8411 |
XNLI | Accuracy | 0.8263 |
有关更多评估细节,请访问我们的 GitHub repository 或 paper 。
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(Text Mining Unit,TeMU)( bsc-temu@bsc.es )
如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es
版权所有: Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) (2022年)
本作品基于 Apache License, Version 2.0 许可。
本工作受到 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 的资助,属于Plan-TL框架的一部分。
如果您使用此模型,请引用我们的 paper :
@article{, abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) within the framework of the Plan-TL.}, author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas}, doi = {10.26342/2022-68-3}, issn = {1135-5948}, journal = {Procesamiento del Lenguaje Natural}, keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural}, publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural}, title = {MarIA: Spanish Language Models}, volume = {68}, url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley}, year = {2022}, }
在任何情况下,模型的所有者(SEDIA - 数字化和人工智能国务秘书处)及其创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型产生的结果承担责任。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.