英文

长格式基础模型在西班牙国家图书馆(BNE)的数据上训练

目录

点击展开
  • 模型描述
  • 拟合用途和限制
  • 使用方法
  • 限制和偏差
  • 训练
  • 评估
  • 其他信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金支持
    • 免责声明

模型描述

长格式基础模型(longformer-base-4096-bne-es)是面向西班牙语的第 Longformer 版本的第 roberta-base-bne 掩码语言模型。使用这些模型可以处理更大的上下文输入,无需额外的聚合策略。该模型以roberta-base-bne检查点为起点,在西班牙国家图书馆的长文档上进行了MLM预训练。

Longformer模型使用滑动窗口(局部)注意力和全局注意力的组合。全局注意力是根据任务进行用户配置,允许模型学习任务特定的表示形式。有关如何设置全局注意力的更多详细信息,请参阅原始 paper

有关语料库、预训练和评估的详细信息,请查阅 repository

拟合用途和限制

长格式基础模型(longformer-base-4096-bne-es)仅适用于掩码语言建模,用于执行填充掩码任务(尝试推理API或阅读下一节)。

但是,它旨在用于非生成的下游任务,例如问答、文本分类或命名实体识别的微调。

使用方法

以下是如何使用该模型:

from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Hay base legal dentro del marco <mask> actual."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])

限制和偏差

在提交时,尚未采取措施估计模型中嵌入的偏差和有害信息。然而,我们非常清楚,我们的模型可能存在偏差,因为语料库是使用多个网络源的爬虫技术收集的。我们打算将来在这些领域开展研究,并在完成后,更新模型卡。

训练

训练语料库和预处理

National Library of Spain (Biblioteca Nacional de España) 每年一次爬取所有.es域。训练语料库包括从2009年到2019年的这些爬取的59TB WARC文件。

为了获得高质量的训练语料库,该语料库经过了一系列操作的流水线预处理,包括句子拆分、语言检测、过滤糟糕的句子和去重复内容。在此过程中,保留了文档边界。这导致得到570GB的文本。

语料库的一些统计数据:

Corpora Number of documents Number of tokens Size (GB)
BNE 201,080,084 135,733,450,668 570GB

对于这个LongFormer模型,我们使用了一个小的随机分区,其中包含少于4096个标记的文档作为训练分区。

标记化和预训练

训练语料库使用了原始 RoBERTA 模型中的字节版本字节对编码(BPE)进行标记化,词汇表大小为50,262个标记。RoBERTa-base-bne预训练包括遵循RoBERTa base的方法进行的掩码语言模型训练。训练持续了40个小时,每个计算节点配备了2个AMD MI50 GPU,每个GPU有32GB VRAM。

评估

在下游任务上进行微调时,该模型的性能如下:

Dataset Metric 1237321
MLDoc F1 0.9608
CoNLL-NERC F1 0.8757
CAPITEL-NERC F1 0.8985
PAWS-X F1 0.8878
UD-POS F1 0.9903
CAPITEL-POS F1 0.9853
SQAC F1 0.8026
STS Combined 0.8338
XNLI Accuracy 0.8210

附加信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)

联系信息

如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es

版权

西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022年)

许可信息

Apache License, Version 2.0

资金支持

该工作得到了西班牙数字化和人工智能国家秘书处(SEDIA)在Plan-TL框架下的资金支持。

免责声明

点击展开

此存储库中发布的模型仅用于通用目的,并可供第三方使用。这些模型可能存在偏见和/或其他不希望出现的扭曲。

当第三方使用任何这些模型(或使用基于这些模型的系统)部署或提供系统和/或服务给其他方,或者成为这些模型的用户时,他们应该注意,他们有责任减轻使用中的风险,并在任何情况下遵守适用法规,包括关于使用人工智能的法规。

存储库所有者(SEDIA-国家数字化和人工智能秘书处)和创建者(BSC-巴塞罗那超级计算中心)不对第三方使用这些模型产生的任何结果负责。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.