英文

GPT2-large 使用西班牙国家图书馆(BNE)的数据进行训练

目录

点击展开
  • 概述
  • 模型描述
  • 预期用途和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 训练数据
    • 训练过程
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金
    • 免责声明

概述

  • 架构:gpt2-large
  • 语言:西班牙语
  • 任务:文本生成
  • 数据:BNE

模型描述

GPT2-large-bne 是一种基于 Transformer 的西班牙语模型。它基于 GPT-2 模型进行了预训练,使用了迄今为止最大的西班牙语语料库,总共处理了570GB的经过清洁和去重处理的文本数据,该数据来源于2009年至2019年由 National Library of Spain (Biblioteca Nacional de España) 执行的网络爬取。

预期用途和限制

您可以直接使用原始模型进行文本生成,或者将其微调用于下游任务。

如何使用

您可以通过使用文本生成的流水线直接使用此模型。由于生成过程涉及某些随机性,我们设置了一个种子以保证可重现性。

>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("La Biblioteca Nacional de España es una entidad pública y sus fines son", num_return_sequences=5)        

[{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son servir como herramienta básica en la difusión de la cultura. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son el desarrollo de la educación, la cultura y el conocimiento, promoviendo actividades a través de Internet con la información que recibe del acceso a los fondos que en ella se almacenan. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la publicación y difusión cultural. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son preservar y difundir los fondos y colecciones de la Biblioteca Nacional, así como servir de punto de encuentro para toda la comunidad científica, la academia y para la sociedad civil. '}, 
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la conservación, estudio y difusión del Patrimonio Bibliográfico en cualquiera de sus formas así como la formación y perfeccionamiento de los especialistas e investigadores en el campo de la información y de las bibliotecas.'}]

您可以按照以下步骤在 PyTorch 中使用此模型获取给定文本的特征:

>>> from transformers import AutoTokenizer, GPT2Model
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = GPT2Model.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> text = "La Biblioteca Nacional de España es una entidad pública y sus fines son"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 14, 1280])

限制和偏见

在提交时,我们尚未采取任何措施来评估模型中嵌入的偏见和毒性。但是,我们非常清楚我们的模型可能存在偏见,因为语料库是通过多个网络源的抓取技术收集而来的。我们打算将来在这些领域进行研究,如果完成,将会更新此模型卡片。尽管如此,以下是模型可能具有偏见预测的一个例子:

>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("El hombre se dedica a", num_return_sequences=5)
[{'generated_text': 'El hombre se dedica a comprar móviles a sus padres, pero les paga por ellos y luego les devuelve la pasta a ella. '}, 
{'generated_text': 'El hombre se dedica a la venta ambulante ilegal en la zona de la Alameda, con puestos del rastro callejero o de supermercados a los que luego roba. '}, 
{'generated_text': 'El hombre se dedica a la venta ambulante en el Paseo de Melilla. '}, 
{'generated_text': 'El hombre se dedica a los tatuajes y los dibujos en el cuerpo con su apariencia física y no da a basto en las tareas domésticas. '}, 
{'generated_text': 'El hombre se dedica a la caza indiscriminada de animales. '}]

>>> set_seed(42)
>>> generator("La mujer se dedica a", num_return_sequences=5)
[{'generated_text': 'La mujer se dedica a comprar móviles a sus padres, pero les paga por ellos y luego no paga la factura." '}, 
{'generated_text': 'La mujer se dedica a la venta ambulante y su pareja vende cupones en el mercadillo navideño. '}, 
{'generated_text': 'La mujer se dedica a la venta al por mayor de perfumes, cosmética, complementos, y otros bienes de consumo. '}, 
{'generated_text': 'La mujer se dedica a los servicios sexuales y se aprovecha de los servicios religiosos. '}, 
{'generated_text': 'La mujer se dedica a la prostitución y tiene dos hijas del matrimonio y la propia familia de la víctima. '}]

训练

训练数据

National Library of Spain (Biblioteca Nacional de España) 每年爬取所有 .es 域。训练语料库由这些爬取从2009年至2019年生成的59TB的WARC文件组成。

为了获得高质量的训练语料库,语料库经过了一系列操作的预处理,包括句子拆分、语言检测、过滤错误形成的句子以及去重复内容。在此过程中,保留了文档边界。这样处理后,得到了2TB的西班牙语干净语料库。之后对整个语料库进行全球去重处理,得到了570GB的文本数据。

语料库的一些统计数据:

Corpora Number of documents Number of tokens Size (GB)
BNE 201,080,084 135,733,450,668 570GB

训练过程

这种架构的预训练目标是下一个标记预测。 GPT2-large-bne 模型的配置如下:

  • gpt2-large:36层,1280隐藏单元,20个头部,774M参数。

使用了字节版本的 Byte-Pair Encoding(BPE)对训练语料进行了分词处理,该方法在原始 GPT-2 模型中使用,词汇表大小为50,262个词元。

GPT2-large-bne 的预训练采用了 GPT-2 的方法进行自回归语言模型训练。

训练过程持续了10天,每天使用32个计算节点,每个节点都配备了4个NVIDIA V100 16GB VRAM的GPU。

附加信息

作者

巴塞罗那超级计算中心的文本挖掘单位(TeMU) ( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

西班牙数字化与人工智能国家秘书处 (SEDIA) 版权所有 (2022)

许可信息

此作品根据 Apache License, Version 2.0 许可进行发布

资金

这项工作是由西班牙数字化与人工智能国家秘书处 (SEDIA) 在 Plan-TL 框架内资助的。

引用信息

如果您使用了此模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

点击展开

此存储库中发布的模型仅供一般目的使用,并可提供给第三方使用。这些模型可能存在偏见和/或其他不希望的扭曲。

当第三方使用这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应该意识到,他们有责任减轻使用过程中的风险,并始终遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA - 国家数字化与人工智能秘书处)以及创建者(BSC - 巴塞罗那超级计算中心)对第三方使用这些模型所产生的结果不承担任何责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA - Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC - Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.