英文

西班牙RoBERTa-base模型在CAPITEL命名实体识别(NER)数据集上进行了BNE微调。

目录

点击展开
  • 模型描述
  • 目标和限制
  • 如何使用
  • 限制和偏差
  • 训练
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 评估
    • 变量和指标
    • 评估结果
  • 其他信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

roBERTa-base-bne-capitel-ner是用于西班牙语的命名实体识别(NER)模型,通过细调来自 roberta-base-bne 模型的 RoBERTa 基础模型进行训练。该基础模型使用迄今为止最大的西班牙语语料库进行预训练,总共570GB的干净和去重的文本,该文本是通过2009年至2019年 National Library of Spain (Biblioteca Nacional de España) 的网络爬取进行处理编制而成的。

目标和限制

roBERTa-base-bne-capitel-ner模型可用于识别命名实体(NE)。由于训练数据集的限制,该模型可能无法很好地适用于所有用例。

如何使用

from transformers import pipeline
from pprint import pprint

nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."

ner_results = nlp(example)
pprint(ner_results)

限制和偏差

在提交时,尚未采取措施来评估模型中的偏差。然而,我们很清楚我们的模型可能存在偏差,因为语料库是使用多个网络来源的爬网技术收集的。我们计划在将来进行这些领域的研究,如果完成,将更新此模型卡。

训练

用于训练和评估的数据集是来自 CAPITEL competition at IberLEF 2020 的数据集(子任务1)。

训练过程

该模型的批大小为16,学习率为5e-5,进行了5个epoch的训练。然后,我们使用相应开发集中的下游任务度量选择最佳检查点,然后在测试集上进行评估。

评估

变量和指标

该模型的微调是通过最大化F1分数进行的。

评估结果

我们在CAPITEL-NERC测试集上针对标准的多语言和单语言基线对roBERTa-base-bne-capitel-ner模型进行了评估:

Model CAPITEL-NERC (F1)
roberta-large-bne-capitel-ner 90.51
roberta-base-bne-capitel-ner 89.60
BETO 87.72
mBERT 88.10
BERTIN 88.56
ELECTRA 80.35

更多细节,请查看官方 GitHub repository 中的微调和评估脚本。

其他信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权所有:西班牙数字化和人工智能国家秘书处(SEDIA)(2022)

许可信息

Apache License, Version 2.0

资助

该工作是由西班牙数字化和人工智能国家秘书处(SEDIA)在Plan-TL框架下资助的。

引用信息

如果您使用此模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

此存储库中发布的模型旨在用于一般目的,对第三方开放。这些模型可能存在偏差和/或其他不希望的失真。

当第三方使用这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应意识到减轻使用中产生的风险是他们的责任,并且在任何情况下都必须遵守适用法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA-数字化和人工智能国家秘书处)和创建者(BSC-巴塞罗那超级计算中心)不对第三方使用这些模型产生的任何结果负责。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.