英文

加泰罗尼亚BERTa(RoBERTa-base)针对命名实体识别的微调模型。

目录

点击展开
  • 模型描述
  • 使用和限制
  • 如何使用
  • 训练
    • 训练数据
    • 训练过程
  • 评估
    • 变量和指标
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

roberta-base-ca-cased-ner是针对加泰罗尼亚语命名实体识别(NER)的模型,通过在 BERTa 模型基础上微调得到, RoBERTa 模型是在公开可用的语料库和网络爬虫上收集的中型语料库上进行预训练的(有关详细信息,请查看BERTa模型卡片)。

使用和限制

如何使用

限制和偏置

提交时,我们尚未采取任何措施来估计模型中嵌入的偏见。然而,我们充分意识到我们的模型可能存在偏见,因为这些语料库是使用多个网络来源的爬取技术收集的。我们打算在将来在这些领域进行研究,如果完成,将更新此模型卡片。

训练

我们使用了叫做 Ancora-ca-ner 的加泰罗尼亚语NER数据集进行训练和评估。

评估

我们在Ancora-ca-ner测试集上针对标准多语言和单语言基线对roberta-base-ca-cased-ner进行了评估:

Model Ancora-ca-ner (F1)
roberta-base-ca-cased-ner 88.13
mBERT 86.38
XLM-RoBERTa 87.66
WikiBERT-ca 77.66

有关更多详细信息,请查看 GitHub repository 的官方微调和评估脚本。

附加信息

作者

巴塞罗那超级计算中心(BSC)文本挖掘单位(TeMU) ( bsc-temu@bsc.es )

联系信息

如需更多信息,请发送电子邮件至aina@bsc.es

版权

版权所有©2021年巴塞罗那超级计算中心文本挖掘单位

许可信息

Apache License, Version 2.0

资助

该工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架内资助。

引用信息

如果您在您的工作中使用了这些资源(数据集或模型),请引用我们的最新论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

免责声明

点击展开

本仓库中发布的模型仅供一般用途,并可提供给第三方使用。这些模型可能存在偏见和/或其他不良扭曲。

当第三方使用这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为这些模型的用户时,他们应注意自己对使用所带来的风险负责,并在任何情况下遵守适用法规,包括有关使用人工智能的法规。

对于第三方对这些模型的使用产生的任何结果,模型的所有者和创造者(巴塞罗那超级计算中心)概不负责。