模型:
PlanTL-GOB-ES/longformer-base-4096-bne-es
长格式基础模型(longformer-base-4096-bne-es)是面向西班牙语的第 Longformer 版本的第 roberta-base-bne 掩码语言模型。使用这些模型可以处理更大的上下文输入,无需额外的聚合策略。该模型以roberta-base-bne检查点为起点,在西班牙国家图书馆的长文档上进行了MLM预训练。
Longformer模型使用滑动窗口(局部)注意力和全局注意力的组合。全局注意力是根据任务进行用户配置,允许模型学习任务特定的表示形式。有关如何设置全局注意力的更多详细信息,请参阅原始 paper 。
有关语料库、预训练和评估的详细信息,请查阅 repository 。
长格式基础模型(longformer-base-4096-bne-es)仅适用于掩码语言建模,用于执行填充掩码任务(尝试推理API或阅读下一节)。
但是,它旨在用于非生成的下游任务,例如问答、文本分类或命名实体识别的微调。
以下是如何使用该模型:
from transformers import AutoModelForMaskedLM from transformers import AutoTokenizer, FillMaskPipeline from pprint import pprint tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es') model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es') model.eval() pipeline = FillMaskPipeline(model, tokenizer_hf) text = f"Hay base legal dentro del marco <mask> actual." res_hf = pipeline(text) pprint([r['token_str'] for r in res_hf])
在提交时,尚未采取措施估计模型中嵌入的偏差和有害信息。然而,我们非常清楚,我们的模型可能存在偏差,因为语料库是使用多个网络源的爬虫技术收集的。我们打算将来在这些领域开展研究,并在完成后,更新模型卡。
National Library of Spain (Biblioteca Nacional de España) 每年一次爬取所有.es域。训练语料库包括从2009年到2019年的这些爬取的59TB WARC文件。
为了获得高质量的训练语料库,该语料库经过了一系列操作的流水线预处理,包括句子拆分、语言检测、过滤糟糕的句子和去重复内容。在此过程中,保留了文档边界。这导致得到570GB的文本。
语料库的一些统计数据:
Corpora | Number of documents | Number of tokens | Size (GB) |
---|---|---|---|
BNE | 201,080,084 | 135,733,450,668 | 570GB |
对于这个LongFormer模型,我们使用了一个小的随机分区,其中包含少于4096个标记的文档作为训练分区。
训练语料库使用了原始 RoBERTA 模型中的字节版本字节对编码(BPE)进行标记化,词汇表大小为50,262个标记。RoBERTa-base-bne预训练包括遵循RoBERTa base的方法进行的掩码语言模型训练。训练持续了40个小时,每个计算节点配备了2个AMD MI50 GPU,每个GPU有32GB VRAM。
在下游任务上进行微调时,该模型的性能如下:
Dataset | Metric | 1237321 |
---|---|---|
MLDoc | F1 | 0.9608 |
CoNLL-NERC | F1 | 0.8757 |
CAPITEL-NERC | F1 | 0.8985 |
PAWS-X | F1 | 0.8878 |
UD-POS | F1 | 0.9903 |
CAPITEL-POS | F1 | 0.9853 |
SQAC | F1 | 0.8026 |
STS | Combined | 0.8338 |
XNLI | Accuracy | 0.8210 |
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es
西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022年)
该工作得到了西班牙数字化和人工智能国家秘书处(SEDIA)在Plan-TL框架下的资金支持。
此存储库中发布的模型仅用于通用目的,并可供第三方使用。这些模型可能存在偏见和/或其他不希望出现的扭曲。
当第三方使用任何这些模型(或使用基于这些模型的系统)部署或提供系统和/或服务给其他方,或者成为这些模型的用户时,他们应该注意,他们有责任减轻使用中的风险,并在任何情况下遵守适用法规,包括关于使用人工智能的法规。
存储库所有者(SEDIA-国家数字化和人工智能秘书处)和创建者(BSC-巴塞罗那超级计算中心)不对第三方使用这些模型产生的任何结果负责。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.