英文

Catalan BERTa-v2 (roberta-base-ca-v2) 基础模型

目录

点击展开
  • 模型描述
  • 预期用途和限制
  • 如何使用
  • 限制和偏差
  • 训练
    • 训练数据
    • 训练过程
  • 评估
    • CLUB基准
    • 评估结果
  • 许可信息
  • 其他信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

catalan BERTa-v2 (roberta-base-ca-v2) 是一个基于Transformer的加泰罗尼亚语掩码语言模型。它基于 RoBERTA 基础模型,并使用从公开可用的语料库和网络爬虫收集的中等规模语料库进行训练。

预期用途和限制

catalan BERTa-v2 (roberta-base-ca-v2) 模型只适用于掩码语言建模,可以执行填充掩码任务(尝试使用推理API或阅读下一部分)。然而,它适用于在非生成下游任务(如问答、文本分类或命名实体识别)上进行微调。

如何使用

使用此模型的方法如下:

from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('projecte-aina/roberta-base-ca-v2')
model = AutoModelForMaskedLM.from_pretrained('projecte-aina/roberta-base-ca-v2')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Em dic <mask>."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])

限制和偏差

在提交时,我们尚未采取措施评估模型中的偏差。但是,我们意识到我们的模型可能存在偏差,因为这些语料库是使用多个网页源进行爬取技术收集的。我们打算将来在这些领域进行研究,如果完成,将更新此模型卡。

训练

训练数据

训练语料库由从网络爬取和公共语料库中收集的几个语料库组成。

Corpus Size in GB
Catalan Crawling 13.00
Wikipedia 1.10
DOGC 0.78
Catalan Open Subtitles 0.02
Catalan Oscar 4.00
CaWaC 3.60
Cat. General Crawling 2.50
Cat. Goverment Crawling 0.24
ACN 0.42
Padicat 0.63
RacoCatalá 8.10
Nació Digital 0.42
Vilaweb 0.06
Tweets 0.02

训练过程

训练语料库已使用 Byte-Pair Encoding (BPE) 的字节版本进行标记化,该版本在原始 RoBERTA 模型中使用了一个大小为50,262的词汇表。 RoBERTa-ca-v2的预训练采用了与原始工作相同的方法进行的掩码语言模型训练,并使用相同的超参数。训练总共持续了96小时,使用了16个带有16GB DDRAM的NVIDIA V100 GPU。

评估

CLUB基准

BERTa模型已在加泰罗尼亚语理解评估基准(CLUB)的下游任务上进行了微调,该基准是与模型一起创建的。

它包含以下任务及其相关数据集:

  • 命名实体识别(NER)

    NER (AnCora) :从原始 Ancora 版本中提取的命名实体,过滤掉一些非常规的实体(如书名),并将它们转换为标准的CONLL-IOB格式

  • 词性标注(POS)

    POS (AnCora) :来自著名Ancora语料库的 Universal Dependencies treebank

  • 文本分类(TC)

    TeCla :包含来自加泰罗尼亚新闻社( ACN )语料库的13.7万条新闻,共30个标签。

  • 文本蕴涵(TE)

    TE-ca :包含21,163对前提和假设的数据,根据它们之间的推理关系(蕴涵、矛盾或中性)进行注释,从 Catalan Textual Corpus 中提取。

  • 语义文本相似度(STS)

    STS-ca :包含3000多个句子对的语义相似度注释,从 Catalan Textual Corpus 中提取。

  • 问答(QA):

    VilaQuAD :包含6,282对问题和答案的数据,从VilaWeb新闻社的2095篇加泰罗尼亚语文章中外包而来。

    ViquiQuAD :包含超过15,000个问题,从随机选择的596篇原始加泰罗尼亚语维基百科文章中外包而来。

    CatalanQA :是VilaQuAD和ViquiQuAD两个数据集的聚合,包含了21,427对根据问题类型平衡的问答数据,每个上下文中包含一个问题和一个答案,尽管上下文可以多次重复。

    XQuAD-ca :是XQuAD的加泰罗尼亚语翻译,XQuAD是一个多语言的手动翻译集合,包含1190个来自英文维基百科的问答对,该数据仅用作测试集。

  • 下面是数据集的训练/开发/测试拆分情况:

    Task (Dataset) Total Train Dev Test
    NER (Ancora) 13,581 10,628 1,427 1,526
    POS (Ancora) 16,678 13,123 1,709 1,846
    STS (STS-ca) 3,073 2,073 500 500
    TC (TeCla) 137,775 110,203 13,786 13,786
    TE (TE-ca) 21,163 16,930 2,116 2,117
    QA (VilaQuAD) 6,282 3,882 1,200 1,200
    QA (ViquiQuAD) 14,239 11,255 1,492 1,429
    QA (CatalanQA) 21,427 17,135 2,157 2,135

    评估结果

    Task NER (F1) POS (F1) STS-ca (Comb) TeCla (Acc.) TEca (Acc.) VilaQuAD (F1/EM) ViquiQuAD (F1/EM) CatalanQA (F1/EM) XQuAD-ca 1 (F1/EM)
    RoBERTa-large-ca-v2 89.82 99.02 83.41 75.46 83.61 89.34/75.50 89.20 /75.77 90.72/79.06 73.79 /55.34
    RoBERTa-base-ca-v2 89.29 98.96 79.07 74.26 83.14 87.74/72.58 88.72/ 75.91 89.50/76.63 73.64/ 55.42
    BERTa 89.76 98.96 80.19 73.65 79.26 85.93/70.58 87.12/73.11 89.17/77.14 69.20/51.47
    mBERT 86.87 98.83 74.26 69.90 74.63 82.78/67.33 86.89/73.53 86.90/74.19 68.79/50.80
    XLM-RoBERTa 86.31 98.89 61.61 70.14 33.30 86.29/71.83 86.88/73.11 88.17/75.93 72.55/54.16

    1:在CatalanQA上进行训练,并在XQuAD-ca上进行测试。

    其他信息

    作者

    巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU) (bsc-temu@bsc.es)

    联系信息

    如需更多信息,请发送电子邮件至aina@bsc.es

    版权

    版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元(Text Mining Unit at Barcelona Supercomputing Center)

    许可信息

    Apache License, Version 2.0

    资助

    本工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架内资助。

    引用信息

    如果您在工作中使用了这些资源(数据集或模型),请引用我们最新的论文:

    @inproceedings{armengol-estape-etal-2021-multilingual,
        title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
        author = "Armengol-Estap{\'e}, Jordi  and
          Carrino, Casimiro Pio  and
          Rodriguez-Penagos, Carlos  and
          de Gibert Bonet, Ona  and
          Armentano-Oller, Carme  and
          Gonzalez-Agirre, Aitor  and
          Melero, Maite  and
          Villegas, Marta",
        booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
        month = aug,
        year = "2021",
        address = "Online",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2021.findings-acl.437",
        doi = "10.18653/v1/2021.findings-acl.437",
        pages = "4933--4946",
    }
    

    免责声明

    点击展开

    此库中发布的模型仅供广义目的使用,并可提供给第三方使用。这些模型可能存在偏差和/或任何其他不良扭曲。

    当第三方使用这些模型(或使用基于这些模型的系统)部署或提供给其他方系统和/或服务,或成为模型的用户时,他们应注意,他们有责任减轻因使用而产生的风险,并始终遵守适用法规,包括关于使用人工智能的法规。

    在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)对第三方使用这些模型产生的任何结果不承担责任。