英文

Spanish RoBERTa-large trained on BNE finetuned for CAPITEL Part of Speech (POS) dataset

目录

点击展开
  • 模型描述
  • 预期用途和限制
  • 如何使用
  • 限制和偏差
  • 训练
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 评估
    • 变量和指标
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金支持
    • 引用信息
    • 免责声明

模型描述

roberta-large-bne-capitel-pos 是一个用于西班牙语的词性标注(POS)模型,基于 roberta-large-bne 模型进行了微调, RoBERTa 是一个使用至今最大的西班牙语语料库进行预训练的大型模型,该语料库一共570GB,是由 National Library of Spain (Biblioteca Nacional de España) 从2009年到2019年通过网络爬取的文本进行处理得到的。

预期用途和限制

roberta-large-bne-capitel-pos 模型可用于对文本进行词性标注(POS)。该模型的训练数据限制了其在各种用例下的泛化能力。

如何使用

以下是使用该模型的方法:

from transformers import pipeline
from pprint import pprint

nlp = pipeline("token-classification", model="PlanTL-GOB-ES/roberta-large-bne-capitel-pos")
example = "El alcalde de Vigo, Abel Caballero, ha comenzado a colocar las luces de Navidad en agosto."

pos_results = nlp(example)
pprint(pos_results)

限制和偏差

在提交时,我们并未采取措施估计模型中的偏差。然而,我们知道我们的模型可能存在偏差,因为这些语料库是通过对多个网络来源进行爬取技术收集而来的。我们将来计划在这些领域进行研究,如果完成,本模型卡将更新。

训练

使用的数据集是 CAPITEL-POS 任务2 的数据集。

训练过程

模型使用批大小为16和学习率为3e-5进行了5个epochs的训练。然后,我们根据相应开发集上的下游任务指标选择最佳的检查点,然后在测试集上进行评估。

评估

变量和指标

该模型的微调是以F1分数为目标进行的。

评估结果

我们将 roberta-large-bne-capitel-pos 在 CAPITEL-POS 的测试集上与标准的多语言和单语言基准模型进行了评估:

Model CAPITEL-POS (F1)
roberta-large-bne-capitel-pos 98.56
roberta-base-bne-capitel-pos 98.46
BETO 98.36
mBERT 98.39
BERTIN 98.47
ELECTRA 98.16

有关更多详情,请查看官方 GitHub repository 中的微调和评估脚本。

附加信息

作者

Text Mining Unit (TeMU) at the Barcelona Supercomputing Center ( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化与人工智能国家秘书处(SEDIA)(2022)所有

许可信息

Apache License, Version 2.0

资金支持

该工作是由西班牙数字化与人工智能国家秘书处(SEDIA)在Plan-TL框架下资助的。

引用信息

如果您使用了该模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

此存储库中发布的模型旨在供广义用途使用,并可供第三方使用。这些模型可能存在偏差或其他不良扭曲。

当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应注意自己的责任来减轻由其使用产生的风险,并始终遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA - 西班牙数字化与人工智能国家秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型产生的结果承担责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA - Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC - Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.