模型:
projecte-aina/roberta-base-ca-cased-ner
roberta-base-ca-cased-ner是针对加泰罗尼亚语命名实体识别(NER)的模型,通过在 BERTa 模型基础上微调得到, RoBERTa 模型是在公开可用的语料库和网络爬虫上收集的中型语料库上进行预训练的(有关详细信息,请查看BERTa模型卡片)。
提交时,我们尚未采取任何措施来估计模型中嵌入的偏见。然而,我们充分意识到我们的模型可能存在偏见,因为这些语料库是使用多个网络来源的爬取技术收集的。我们打算在将来在这些领域进行研究,如果完成,将更新此模型卡片。
我们使用了叫做 Ancora-ca-ner 的加泰罗尼亚语NER数据集进行训练和评估。
我们在Ancora-ca-ner测试集上针对标准多语言和单语言基线对roberta-base-ca-cased-ner进行了评估:
Model | Ancora-ca-ner (F1) |
---|---|
roberta-base-ca-cased-ner | 88.13 |
mBERT | 86.38 |
XLM-RoBERTa | 87.66 |
WikiBERT-ca | 77.66 |
有关更多详细信息,请查看 GitHub repository 的官方微调和评估脚本。
巴塞罗那超级计算中心(BSC)文本挖掘单位(TeMU) ( bsc-temu@bsc.es )
如需更多信息,请发送电子邮件至aina@bsc.es
版权所有©2021年巴塞罗那超级计算中心文本挖掘单位
该工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内资助。
如果您在您的工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
本仓库中发布的模型仅供一般用途,并可提供给第三方使用。这些模型可能存在偏见和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为这些模型的用户时,他们应注意自己对使用所带来的风险负责,并在任何情况下遵守适用法规,包括有关使用人工智能的法规。
对于第三方对这些模型的使用产生的任何结果,模型的所有者和创造者(巴塞罗那超级计算中心)概不负责。