模型:

projecte-aina/roberta-base-ca-cased-pos

任务:

标记分类

类库:

PyTorch Transformers

数据集:

universal_dependencies 3Auniversal_dependencies

语言:

其他:

roberta catalan part of speech tagging pos CaText Catalan Textual Corpus Eval Results AutoTrain Compatible part+of+speech+tagging Catalan+Textual+Corpus

预印本库:

arxiv:1907.11692

许可:

apache-2.0

模型介绍文件清单

英文

Catalan BERTa (roberta-base-ca)用于词性标注（POS）的模型

模型描述

robberta-base-ca-cased-pos 是一个用于加泰罗尼亚语的词性标注（POS）模型，从 robberta-base-ca 模型微调而来， robberta-base-ca 是一个在公开可用的语料库和网络爬虫上训练的中等规模语言模型，共训练了 RoBERTa 个基本模型。

预期用途和限制

robberta-base-ca-cased-pos 模型可用于对文本进行词性标注（POS）处理。该模型受限于其训练数据集，可能对所有用例的泛化能力有限。

如何使用

使用该模型的方法如下：

from transformers import pipeline
from pprint import pprint

nlp = pipeline("token-classification", model="projecte-aina/roberta-base-ca-cased-pos")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."

pos_results = nlp(example)
pprint(pos_results)

限制和偏见

在提交时，我们尚未采取任何措施来估计模型中的偏见。然而，我们充分意识到我们的模型可能存在偏见，因为通过在多个网络来源上使用爬取技术收集语料库。我们打算在未来开展研究，并在完成后更新此模型卡。

训练

训练数据

我们使用了来自 Ancora-ca-pos 的加泰罗尼亚语POS数据集进行训练和评估。详细情况请参阅 Ancora-ca-pos。

训练过程

模型的批量大小为16，学习率为5e-5，训练了5个周期。然后，我们使用相应开发集中的下游任务指标选择了最佳检查点，并在测试集上进行了评估。

评估

变量和指标

该模型经过微调，最大化了F1分数。

评估结果

我们将 robberta-base-ca-cased-pos 在 Ancora-ca-ner 测试集上与标准的多语言和单语基线进行了评估：

Model	AnCora-Ca-POS (F1)
roberta-base-ca-cased-pos	98.93
mBERT	98.82
XLM-RoBERTa	98.89
WikiBERT-ca	97.60

更多细节，请查看官方的微调和评估脚本。

其他信息

作者

巴塞罗那超级计算中心（Barcelona Supercomputing Center）的文本挖掘组（TeMU）( bsc-temu@bsc.es )

联系信息

如需更多信息，请发送电子邮件至 aina@bsc.es

版权

许可信息

Apache License, Version 2.0

资助

本工作是由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内资助的。

引用信息

如果您在工作中使用了这些资源（数据集或模型），请引用我们的最新论文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

免责声明

点击展开

本存储库中发布的模型旨在供广泛用途，并提供给第三方使用。这些模型可能存在偏见或其他不可取的失真。

当第三方使用这些模型（或基于这些模型的系统）部署或提供给其他方的系统和/或服务，或成为模型的用户时，他们应注意，他们有责任减少由使用这些模型带来的风险，并在任何情况下都要遵守适用法规，包括关于使用人工智能的法规。

在任何情况下，模型的所有者和创建者（巴塞罗那超级计算中心）不对第三方使用这些模型所产生的结果负责。

作者:

Projecte Aina

数据集大小:

481.27 MB