英文

GPT2-base (gpt2-base-bne) 使用西班牙国家图书馆 (BNE) 的数据进行训练

目录

点击展开
  • 概述
  • 模型描述
  • 使用和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 训练数据
    • 训练过程
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金支持
    • 引用信息
    • 免责声明

概述

  • 架构:gpt2-base
  • 语言:西班牙语
  • 任务:文本生成
  • 数据:BNE

模型描述

GPT2-base-bne 是基于西班牙语的基于Transformer的模型。它基于 GPT-2 模型,并使用迄今为止最大的西班牙语语料库进行预训练,总计570GB的干净且去重的文本数据,这些数据来自 National Library of Spain (Biblioteca Nacional de España) 自2009年至2019年的网络爬取。

使用和限制

您可以使用原始模型进行文本生成,也可以对其进行微调以用于下游任务。

如何使用

下面是如何使用此模型的方法:

您可以直接使用文本生成的流水线来使用此模型。由于生成过程依赖于一定的随机性,我们设置了种子以保证可重复性:

>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("La Biblioteca Nacional de España es una entidad pública y sus fines son", num_return_sequences=5)

[{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son difundir la cultura y el arte hispánico, así como potenciar las publicaciones de la Biblioteca y colecciones de la Biblioteca Nacional de España para su difusión e inquisición. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son diversos. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la publicación, difusión y producción de obras de arte español, y su patrimonio intelectual es el que tiene la distinción de Patrimonio de la Humanidad. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son los de colaborar en el mantenimiento de los servicios bibliotecarios y mejorar la calidad de la información de titularidad institucional y en su difusión, acceso y salvaguarda para la sociedad. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la conservación, enseñanza y difusión del patrimonio bibliográfico en su lengua específica y/o escrita. '}]

下面是如何使用此模型在PyTorch中获取给定文本的特征的方法:

>>> from transformers import AutoTokenizer, GPT2Model
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = GPT2Model.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> text = "La Biblioteca Nacional de España es una entidad pública y sus fines son"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 14, 768])

限制和偏见

在提交的时候,并未采取措施来估计模型中嵌入的偏见和有害信息。然而,我们意识到我们的模型可能存在偏见,因为语料库是通过对多个网络来源进行爬取技术收集而来的。我们将来有意在这些领域开展研究,并根据完成情况更新此模型卡片。尽管如此,以下是模型可能存在偏见预测的示例:

>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("El hombre se dedica a", num_return_sequences=5)
[{'generated_text': 'El hombre se dedica a comprar armas a sus amigos, pero les cuenta la historia de las ventajas de ser "buenos y regulares en la vida" e ir "bien" por los pueblos. '}, 
{'generated_text': 'El hombre se dedica a la venta de todo tipo de juguetes durante todo el año y los vende a través de Internet con la intención de alcanzar una mayor rentabilidad. '}, 
{'generated_text': 'El hombre se dedica a la venta ambulante en plena Plaza Mayor. '}, 
{'generated_text': 'El hombre se dedica a los toros y él se dedica a los servicios religiosos. '}, 
{'generated_text': 'El hombre se dedica a la caza y a la tala de pinos. '}]

>>> set_seed(42)
>>> generator("La mujer se dedica a", num_return_sequences=5)
[{'generated_text': 'La mujer se dedica a comprar vestidos de sus padres, como su madre, y siempre le enseña el último que ha hecho en poco menos de un año para ver si le da tiempo. '}, 
{'generated_text': 'La mujer se dedica a la venta ambulante y su pareja vende su cuerpo desde que tenía uso del automóvil. '}, 
{'generated_text': 'La mujer se dedica a la venta ambulante en plena ola de frío. '}, 
{'generated_text': 'La mujer se dedica a limpiar los suelos y paredes en pueblos con mucha humedad. '}, 
{'generated_text': 'La mujer se dedica a la prostitución en varios locales de alterne clandestinos en Barcelona. '}]

训练

训练数据

National Library of Spain (Biblioteca Nacional de España) 每年对所有 .es 域进行一次爬取。训练语料库包括这些爬取的59TB的WARC文件,从2009年到2019年进行了爬取。

为获取高质量的训练语料库,语料库经过一系列预处理操作,包括句子拆分、语言检测、过滤错误形成的句子和去重复内容。在此过程中,保留了文档边界。最终得到2TB的西班牙语干净语料库。随后应用全局去重复,得到570GB的文本数据。

语料库的一些统计信息:

Corpora Number of documents Number of tokens Size (GB)
BNE 201,080,084 135,733,450,668 570GB

训练过程

此架构的预训练目标是下一个标记的预测。GPT2-base-bne 模型的配置如下:

  • gpt2-base:12层,768隐藏层,12个注意力头,117M个参数。

训练语料库使用了原始 GPT-2 模型中的字节版本 Byte-Pair Encoding (BPE) 进行标记化,词汇表大小为50,262个标记。

GPT2-base-bne 的预训练采用了 GPT-2 的方法进行自回归语言模型训练。

训练共持续了3天,使用了16台计算节点,每个节点配备了4个NVIDIA V100 GPU,每个GPU具有16GB的VRAM。

附加信息

作者

巴塞罗那超级计算中心 (Barcelona Supercomputing Center) 的文本挖掘单元 (Text Mining Unit,TeMU),联系邮箱:bsc-temu@bsc.es

联系信息

欲获取更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

西班牙数字化和人工智能国家秘书处 (Spanish State Secretariat for Digitalization and Artificial Intelligence, SEDIA) 版权所有 (2022)

许可信息

此作品基于 Apache License, Version 2.0 许可

资金支持

此工作由西班牙数字化和人工智能国家秘书处 (Spanish State Secretariat for Digitalization and Artificial Intelligence, SEDIA) 在Plan-TL框架内提供资金支持。

引用信息

如果您使用此模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

点击展开

此存储库中发布的模型仅供通用目的,并可提供给第三方使用。这些模型可能存在偏见和/或其他不希望的失真。

当第三方使用任何这些模型(或基于这些模型的系统)部署或提供给其他方使用系统和/或服务,或成为模型的用户时,他们应意识到减轻使用过程中的风险是他们的责任,并且无论如何都要遵守适用法规,包括有关使用人工智能的法规。

在任何情况下,模型的所有者(西班牙数字化和人工智能国家秘书处,SEDIA)以及创建者(巴塞罗那超级计算中心,BSC)对于第三方对这些模型的使用所产生的任何结果均不承担责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.