英文

Catalan BERTa(roberta-large-ca-v2)大型模型

目录

点击展开
  • 模型描述
  • 使用目的和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 训练数据
    • 训练过程
  • 评估
    • CLUB基准测试
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金
    • 引用信息
    • 免责声明

模型描述

roberta-large-ca-v2是基于Catalan语言的基于转换的掩码语言模型。它基于 RoBERTA 大型模型,并经过训练,训练语料库从公开可用的语料库和网络爬虫中收集而来。

使用目的和限制

roberta-large-ca-v2模型仅用于填充语言建模的任务,即填充掩码任务(尝试使用推理API或阅读下一部分)。但是,它可以用于非生成下游任务的微调,如问答、文本分类或命名实体识别。

如何使用

以下是使用此模型的方法:

from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('projecte-aina/roberta-large-ca-v2')
model = AutoModelForMaskedLM.from_pretrained('projecte-aina/roberta-large-ca-v2')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Em dic <mask>."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])

限制和偏见

在提交时,尚未采取任何措施来估计模型中嵌入的偏见。然而,我们非常清楚我们的模型可能存在偏见,因为使用爬网技术从多个网络源收集了语料库。我们打算将来在这些领域进行研究,并在完成后更新此模型卡。

训练

训练数据

训练语料库由从网络爬虫和公共语料库中收集的多个语料库组成。

Corpus Size in GB
Catalan Crawling 13.00
Wikipedia 1.10
DOGC 0.78
Catalan Open Subtitles 0.02
Catalan Oscar 4.00
CaWaC 3.60
Cat. General Crawling 2.50
Cat. Goverment Crawling 0.24
ACN 0.42
Padicat 0.63
RacoCatalá 8.10
Nació Digital 0.42
Vilaweb 0.06
Tweets 0.02

训练程序

训练语料库已使用50,262个令牌的原始 Byte-Pair Encoding (BPE) (用于原始 RoBERTA 模型)的字节版本进行标记化。RoBERTa-large预训练包括与原始工作中相同超参数的掩码语言模型训练。训练持续了96小时,使用了32个16GB DDRAM的NVIDIA V100 GPU。

评估

CLUB基准测试

BERTa-large模型已经在Catalan Language Understanding Evaluation基准测试(CLUB)的下游任务上进行了微调,这些任务是与该模型一起创建的。

它包含以下任务及其相关数据集:

  • 命名实体识别(NER)

    NER (AnCora) :从原始 Ancora 版本中提取的命名实体,过滤掉一些非传统的实体,如书名,并将其转换为标准的CONLL-IOB格式

  • 词性标注(POS)

    POS (AnCora) :来自着名的Ancora语料库的 Universal Dependencies treebank

  • 文本分类(TC)

    TeCla :包含来自Catalan News Agency( ACN )语料库的137k新闻片段,共30个标签。

  • 文本蕴含(TE)

    TE-ca :包含21,163对前提和假设的数据集,根据它们的推理关系(蕴含、矛盾或中性)进行了注释,从 Catalan Textual Corpus 中提取。

  • 语义文本相似性(STS)

    STS-ca :包含3000多个句子对的数据集,注释了它们之间的语义相似性,从 Catalan Textual Corpus 中抓取。

  • 问答(QA):

    VilaQuAD :包含6282个问题和答案对,从2095篇用Catalan语言编写的文章的VilaWeb新闻稿中外包而来。

    ViquiQuAD :包含15000多个问题,从随机选择的596篇原始以Catalan语言编写的维基百科文章中外包而来。

    CatalanQA :汇集了2个先前的数据集(VilaQuAD和ViquiQuAD),包含21427个问题/答案对,根据问题类型平衡,每个上下文包含一个问题和一个答案,尽管上下文可以多次重复出现。

    XQuAD-ca :XQuAD的Catalan翻译,这是一个多语言数据集,手动从英文维基百科中翻译的1190个问题-答案对,仅用作测试集。

  • 以下是数据集的训练/验证/测试拆分:

    Task (Dataset) Total Train Dev Test
    NER (Ancora) 13,581 10,628 1,427 1,526
    POS (Ancora) 16,678 13,123 1,709 1,846
    STS (STS-ca) 3,073 2,073 500 500
    TC (TeCla) 137,775 110,203 13,786 13,786
    TE (TE-ca) 21,163 16,930 2,116 2,117
    QA (VilaQuAD) 6,282 3,882 1,200 1,200
    QA (ViquiQuAD) 14,239 11,255 1,492 1,429
    QA (CatalanQA) 21,427 17,135 2,157 2,135

    评估结果

    Task NER (F1) POS (F1) STS-ca (Comb) TeCla (Acc.) TEca (Acc.) VilaQuAD (F1/EM) ViquiQuAD (F1/EM) CatalanQA (F1/EM) XQuAD-ca 1 (F1/EM)
    RoBERTa-large-ca-v2 89.82 99.02 83.41 75.46 83.61 89.34/75.50 89.20 /75.77 90.72/79.06 73.79 /55.34
    RoBERTa-base-ca-v2 89.29 98.96 79.07 74.26 83.14 87.74/72.58 88.72/ 75.91 89.50/76.63 73.64/ 55.42
    BERTa 89.76 98.96 80.19 73.65 79.26 85.93/70.58 87.12/73.11 89.17/77.14 69.20/51.47
    mBERT 86.87 98.83 74.26 69.90 74.63 82.78/67.33 86.89/73.53 86.90/74.19 68.79/50.80
    XLM-RoBERTa 86.31 98.89 61.61 70.14 33.30 86.29/71.83 86.88/73.11 88.17/75.93 72.55/54.16

    1:在CatalanQA上进行训练,然后在XQuAD-ca上进行测试。

    附加信息

    作者

    巴塞罗那超级计算中心的文本挖掘部门(bsc-temu@bsc.es)

    联系信息

    如需进一步了解,请发送电子邮件至aina@bsc.es

    版权

    版权所有(c)2022年巴塞罗那超级计算中心文本挖掘部门

    许可信息

    Apache License, Version 2.0

    资金

    该工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架内支持。

    引用信息

    如果您在您的工作中使用了这些资源(数据集或模型),请引用我们最新的论文:

    @inproceedings{armengol-estape-etal-2021-multilingual,
        title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
        author = "Armengol-Estap{\'e}, Jordi  and
          Carrino, Casimiro Pio  and
          Rodriguez-Penagos, Carlos  and
          de Gibert Bonet, Ona  and
          Armentano-Oller, Carme  and
          Gonzalez-Agirre, Aitor  and
          Melero, Maite  and
          Villegas, Marta",
        booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
        month = aug,
        year = "2021",
        address = "Online",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2021.findings-acl.437",
        doi = "10.18653/v1/2021.findings-acl.437",
        pages = "4933--4946",
    }
    

    免责声明

    点击展开

    此仓库中发布的模型仅供通用目的使用,并可供第三方使用。这些模型可能存在偏见和/或任何其他不良失真。

    当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或者成为模型的用户时,他们应意识到减轻使用所带来的风险是他们的责任,并且无论如何,都需遵守适用的法规,包括关于使用人工智能的法规。

    在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心 - BSC)对第三方使用这些模型所产生的结果不承担任何责任。