英文

BERTa: RoBERTa-based Catalan language model

目录

点击展开
  • 模型描述
  • 用途和限制
  • 如何使用
  • 限制和偏见
  • 训练
  • 评估
  • 额外信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

BERTa是一种基于RoBERTa的加泰罗尼亚语言模型。它基于 RoBERTA 基础模型,并经过了从公开可用的语料库和网络爬虫收集的中等规模语料库的训练。

这个模型最初发表在 bsc/roberta-base-ca-cased 上。

适用范围和限制

该模型仅适用于掩码语言建模中的填充掩码任务(使用推理API或阅读下一节)。然而,它适用于非生成性的下游任务,如问题回答、文本分类或命名实体识别。

如何使用

加载模型和分词器

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
model = AutoModelForMaskedLM.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")

填充掩码任务

下面是使用管道进行掩码语言建模任务的示例。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-ca-cased')
>>> unmasker("Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
             "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
             "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
             "i pel nord-oest per la serralada de Collserola "
             "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
             "la línia de costa encaixant la ciutat en un perímetre molt definit.")

[
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.4177263379096985,
    "token": 734,
    "token_str": " Barcelona"
  },
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.10696165263652802,
    "token": 3849,
    "token_str": " Badalona"
  },
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.08135009557008743,
    "token": 19349,
    "token_str": " Collserola"
  },
  {
   "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.07330769300460815,
    "token": 4974,
    "token_str": " Terrassa"
  },
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.03317456692457199,
    "token": 14333,
    "token_str": " Gavà"
  }
]

限制和偏见

训练

训练语料库和预处理

训练语料库由从网络爬取和公共语料库中收集的多个语料库组成。

公开可用的语料库包括:

  • 加泰罗尼亚政府公报的 DOGC 部分,这是一组来自加泰罗尼亚政府公报的文件

  • Catalan Open Subtitles ,一组电影字幕的翻译版本

  • 非洗牌的加泰罗尼亚语 OSCAR 部分,这是一个由 Common Crawl 过滤而来的单语料库集合

  • CaWac 语料库,这是一个建立在2013年底.cat顶级域名上的加泰罗尼亚语网络语料库的非重复版本

  • Catalan Wikipedia articles 于2020年8月18日下载。

  • 爬取的语料库包括:

  • 加泰罗尼亚的常规抓取,通过抓取前500个最受欢迎的.cat和.ad域名获得

  • 加泰罗尼亚政府抓取,通过抓取属于加泰罗尼亚政府的.gencat域名和子域名获得

  • Catalan News Agency 中爬取的ACN语料库,其中包含2015年3月至2020年10月的22万条新闻,这些新闻来自 AnCora Catalan 2.0.0

  • 为了获得高质量的训练语料库,每个语料库都经过一系列预处理操作,包括句子拆分、语言检测、过滤格式错误的句子和去重复内容。过程中保留了文档边界。最后,将语料库连接在一起,并应用进一步的全局去重复处理。最终的训练语料库包含约18亿个标记。

    分词和预训练

    训练语料库使用 Byte-Pair Encoding (BPE) 的字节版本进行分词,与原始 RoBERTA 模型中的词汇表大小为52,000标记。

    BERTa的预训练采用了遵循RoBERTa基础模型的掩码语言模型训练方法,并使用了原始工作中的相同超参数。

    训练共持续了48小时,使用16个NVIDIA V100 GPU,每个GPU具有16GB的DDR内存。

    评估

    CLUB基准

    BERTa模型已在加泰罗尼亚语言理解评估基准(CLUB)的下游任务上进行了微调,并随模型一起创建。

    它包含以下任务及其相关数据集:

  • 词性标注(POS)

    来自加泰罗尼亚语Ancora语料库的 Universal Dependencies treebank

  • 命名实体识别(NER)

    AnCora Catalan 2.0.0 :从原始 Ancora 版本中提取的命名实体,过滤掉一些非传统的实体,如图书标题,并将它们转录为标准的CONLL-IOB格式

  • 文本分类(TC)

    TeCla :包含来自加泰罗尼亚通讯社( ACN )语料库的13.7万新闻片段

  • 语义文本相似性(STS)

    Catalan semantic textual similarity :包含3000多个句子对,用标注的语义相似性对它们进行了注释,从 Catalan Textual Corpus 中提取得到

  • 问答(QA):

    ViquiQuAD :包含15000多个问题,这些问题来源于随机选择的596篇最初以加泰罗尼亚语写成的文章,从加泰罗尼亚维基百科外包获得

    XQuAD :XQuAD的加泰罗尼亚语翻译,这是一个多语言的手动翻译集合,包含1190个问题 - 答案对,源自英文维基百科,仅用作测试集

  • 以下是数据集的训练/开发/测试拆分情况:

    Task (Dataset) Total Train Dev Test
    NER (Ancora) 13,581 10,628 1,427 1,526
    POS (Ancora) 16,678 13,123 1,709 1,846
    STS 3,073 2,073 500 500
    TC (TeCla) 137,775 110,203 13,786 13,786
    QA (ViquiQuAD) 14,239 11,255 1,492 1,429

    对下游任务的微调是使用HuggingFace Transformers 库完成的

    结果

    下面是CLUB任务上的BERTa模型的评估结果,与多语言mBERT、XLM-RoBERTa模型和加泰罗尼亚语WikiBERT-ca模型进行了比较

    Task NER (F1) POS (F1) STS (Pearson) TC (accuracy) QA (ViquiQuAD) (F1/EM) QA (XQuAD) (F1/EM)
    BERTa 88.13 98.97 79.73 74.16 86.97/72.29 68.89/48.87
    mBERT 86.38 98.82 76.34 70.56 86.97/72.22 67.15/46.51
    XLM-RoBERTa 87.66 98.89 75.40 71.68 85.50/70.47 67.10/46.42
    WikiBERT-ca 77.66 97.60 77.18 73.22 85.45/70.75 65.21/36.60

    其他信息

    作者

    巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)( bsc-temu@bsc.es )

    联系信息

    有关更多信息,请发送电子邮件至 plantl-gob-es@bsc.es

    版权

    西班牙数字化与人工智能国家秘书处 (SEDIA) 版权所有(2022年)

    许可信息

    Apache License, Version 2.0

    资助

    此工作得到西班牙数字化与人工智能国家秘书处 (SEDIA) 在 Plan-TL 框架下的资助。

    引用信息

    如果您使用了此模型,请引用我们的最新论文:

    @inproceedings{armengol-estape-etal-2021-multilingual,
        title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
        author = "Armengol-Estap{\'e}, Jordi  and
          Carrino, Casimiro Pio  and
          Rodriguez-Penagos, Carlos  and
          de Gibert Bonet, Ona  and
          Armentano-Oller, Carme  and
          Gonzalez-Agirre, Aitor  and
          Melero, Maite  and
          Villegas, Marta",
        booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
        month = aug,
        year = "2021",
        address = "Online",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2021.findings-acl.437",
        doi = "10.18653/v1/2021.findings-acl.437",
        pages = "4933--4946",
    }
    

    免责声明

    此存储库中发布的模型仅供一般用途,并可提供给第三方使用。这些模型可能存在偏见和/或其他不可取的扭曲。

    当第三方使用这些模型(或使用基于这些模型的系统)部署或提供给其他方系统和/或服务,或成为模型的用户时,他们应意识到减少使用风险是他们的责任,并且在任何情况下,都必须遵守适用的法规,包括有关使用人工智能的法规。

    模型的所有者(SEDIA-数字化和人工智能国家秘书处)或创建者(BSC-巴塞罗那超级计算中心)对第三方对这些模型的使用产生的任何结果概不负责。

    Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

    Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.

    En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.