英文

西班牙RoBERTa-base在BNE训练集上进行了CAPITEL命名实体识别(NER)的微调。

目录

点击展开
  • 模型描述
  • 使用和限制
  • 如何使用
  • 限制和偏见
  • 训练
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 评估
    • 变量和指标
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

roberta-base-bne-capitel-ner-plus是一种用于西班牙语的命名实体识别(NER)模型,它是从 roberta-base-bne 模型(使用迄今为止最大的西班牙语语料库进行了预训练的基础模型,总计570GB的清洁和去重文本,通过2009年至2019年 National Library of Spain (Biblioteca Nacional de España) 进行的网络爬虫处理而编译而来)微调得到的。这个模型是 roberta-base-bne-capitel-ner 模型的更强大版本,更好地识别小写的命名实体(NE)。

使用和限制

roberta-base-bne-capitel-ner-plus模型可以用于识别命名实体(NE)。该模型受其训练数据集的限制,可能无法很好地适用于所有用例。

如何使用

from transformers import pipeline
from pprint import pprint

nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner-plus")
example = "Me llamo francisco javier y vivo en madrid."

ner_results = nlp(example)
pprint(ner_results)

限制和偏见

在提交时,尚未采取任何措施来估计模型中嵌入的偏见。然而,我们清楚我们的模型可能存在偏见,因为语料库是使用多个网络来源的爬行技术收集的。我们打算在将来在这些领域开展研究,完成后,将更新此模型卡。

训练

用于训练和评估的数据集是 CAPITEL competition at IberLEF 2020 (子任务1)的数据集。我们对数据集进行了小写和大写处理,并将额外的句子添加到了训练集中。

训练过程

模型的批量大小为16,学习率为5e-5,训练了5个周期。然后,我们使用相应开发集中的下游任务指标选择最佳的检查点,然后在测试集上对其进行了评估。

评估

变量和指标

该模型的微调是通过最大化F1分数来进行的。

评估结果

我们将roberta-base-bne-capitel-ner-plus与标准多语言和单语基线模型在CAPITEL-NERC测试集上进行了评估:

Model CAPITEL-NERC (F1)
roberta-large-bne-capitel-ner 90.51
roberta-base-bne-capitel-ner 89.60
roberta-base-bne-capitel-ner-plus 89.60
BETO 87.72
mBERT 88.10
BERTIN 88.56
ELECTRA 80.35

有关详细信息,请查看官方 GitHub repository 中的微调和评估脚本。

附加信息

作者

巴塞罗那超级计算中心(BSC)文本挖掘单位(TeMU)(bsc-temu@bsc.es)

联系信息

如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es

版权

版权所有:西班牙数字化与人工智能秘书处(SEDIA)(2022年)

许可信息

Apache License, Version 2.0

资助

该工作是由西班牙数字化与人工智能秘书处(SEDIA)在Plan-TL框架下资助的。

引用信息

如果您使用了这个模型,请引用我们的 paper

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}

免责声明

此仓库中发布的模型用于一般目的,供第三方使用。这些模型可能存在偏见和/或其他不良扭曲。

当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方或成为这些模型的用户时,他们应意识到,他们有责任减轻因使用这些模型而产生的风险,并在任何情况下遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型所有者(SEDIA - 国家数字化与人工智能秘书处)和创建者(BSC - 巴塞罗那超级计算中心)对于第三方使用这些模型而产生的任何结果不承担责任。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

当第三者使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方或成为这些模型的用户时,他们应注意,由于使用这些模型可能存在风险,他们有责任减轻这些风险,并且在任何情况下遵守适用的法规,包括关于人工智能使用的法规。

在任何情况下,模型所有者(SEDIA - 国家数字化与人工智能秘书处)和创建者(BSC - 巴塞罗那超级计算中心)对于第三者使用这些模型而产生的任何结果不承担责任。