模型:

projecte-aina/roberta-base-ca-v2

任务:

填充掩码

类库:

PyTorch Transformers

语言:

其他:

roberta catalan masked-lm RoBERTa-base-ca-v2 CaText Catalan Textual Corpus AutoTrain Compatible Catalan+Textual+Corpus

许可:

apache-2.0

模型介绍文件清单

英文

Catalan BERTa-v2 (roberta-base-ca-v2) 基础模型

模型描述

catalan BERTa-v2 (roberta-base-ca-v2) 是一个基于Transformer的加泰罗尼亚语掩码语言模型。它基于 RoBERTA 基础模型，并使用从公开可用的语料库和网络爬虫收集的中等规模语料库进行训练。

预期用途和限制

catalan BERTa-v2 (roberta-base-ca-v2) 模型只适用于掩码语言建模，可以执行填充掩码任务（尝试使用推理API或阅读下一部分）。然而，它适用于在非生成下游任务（如问答、文本分类或命名实体识别）上进行微调。

如何使用

使用此模型的方法如下：

from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('projecte-aina/roberta-base-ca-v2')
model = AutoModelForMaskedLM.from_pretrained('projecte-aina/roberta-base-ca-v2')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Em dic <mask>."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])

限制和偏差

在提交时，我们尚未采取措施评估模型中的偏差。但是，我们意识到我们的模型可能存在偏差，因为这些语料库是使用多个网页源进行爬取技术收集的。我们打算将来在这些领域进行研究，如果完成，将更新此模型卡。

训练

训练数据

训练语料库由从网络爬取和公共语料库中收集的几个语料库组成。

Corpus	Size in GB
Catalan Crawling	13.00
Wikipedia	1.10
DOGC	0.78
Catalan Open Subtitles	0.02
Catalan Oscar	4.00
CaWaC	3.60
Cat. General Crawling	2.50
Cat. Goverment Crawling	0.24
ACN	0.42
Padicat	0.63
RacoCatalá	8.10
Nació Digital	0.42
Vilaweb	0.06
Tweets	0.02

训练过程

训练语料库已使用 Byte-Pair Encoding (BPE) 的字节版本进行标记化，该版本在原始 RoBERTA 模型中使用了一个大小为50,262的词汇表。 RoBERTa-ca-v2的预训练采用了与原始工作相同的方法进行的掩码语言模型训练，并使用相同的超参数。训练总共持续了96小时，使用了16个带有16GB DDRAM的NVIDIA V100 GPU。

评估

CLUB基准

BERTa模型已在加泰罗尼亚语理解评估基准（CLUB）的下游任务上进行了微调，该基准是与模型一起创建的。

它包含以下任务及其相关数据集：

命名实体识别（NER）

NER (AnCora) ：从原始 Ancora 版本中提取的命名实体，过滤掉一些非常规的实体（如书名），并将它们转换为标准的CONLL-IOB格式

词性标注（POS）

POS (AnCora) ：来自著名Ancora语料库的 Universal Dependencies treebank 。

文本分类（TC）

TeCla ：包含来自加泰罗尼亚新闻社（ ACN ）语料库的13.7万条新闻，共30个标签。

文本蕴涵（TE）

TE-ca ：包含21,163对前提和假设的数据，根据它们之间的推理关系（蕴涵、矛盾或中性）进行注释，从 Catalan Textual Corpus 中提取。

语义文本相似度（STS）

STS-ca ：包含3000多个句子对的语义相似度注释，从 Catalan Textual Corpus 中提取。

问答（QA）：

VilaQuAD ：包含6,282对问题和答案的数据，从VilaWeb新闻社的2095篇加泰罗尼亚语文章中外包而来。

ViquiQuAD ：包含超过15,000个问题，从随机选择的596篇原始加泰罗尼亚语维基百科文章中外包而来。

CatalanQA ：是VilaQuAD和ViquiQuAD两个数据集的聚合，包含了21,427对根据问题类型平衡的问答数据，每个上下文中包含一个问题和一个答案，尽管上下文可以多次重复。

XQuAD-ca ：是XQuAD的加泰罗尼亚语翻译，XQuAD是一个多语言的手动翻译集合，包含1190个来自英文维基百科的问答对，该数据仅用作测试集。

下面是数据集的训练/开发/测试拆分情况：

Task (Dataset)	Total	Train	Dev	Test
NER (Ancora)	13,581	10,628	1,427	1,526
POS (Ancora)	16,678	13,123	1,709	1,846
STS (STS-ca)	3,073	2,073	500	500
TC (TeCla)	137,775	110,203	13,786	13,786
TE (TE-ca)	21,163	16,930	2,116	2,117
QA (VilaQuAD)	6,282	3,882	1,200	1,200
QA (ViquiQuAD)	14,239	11,255	1,492	1,429
QA (CatalanQA)	21,427	17,135	2,157	2,135

评估结果

Task	NER (F1)	POS (F1)	STS-ca (Comb)	TeCla (Acc.)	TEca (Acc.)	VilaQuAD (F1/EM)	ViquiQuAD (F1/EM)	CatalanQA (F1/EM)	XQuAD-ca 1 (F1/EM)
RoBERTa-large-ca-v2	89.82	99.02	83.41	75.46	83.61	89.34/75.50	89.20 /75.77	90.72/79.06	73.79 /55.34
RoBERTa-base-ca-v2	89.29	98.96	79.07	74.26	83.14	87.74/72.58	88.72/ 75.91	89.50/76.63	73.64/ 55.42
BERTa	89.76	98.96	80.19	73.65	79.26	85.93/70.58	87.12/73.11	89.17/77.14	69.20/51.47
mBERT	86.87	98.83	74.26	69.90	74.63	82.78/67.33	86.89/73.53	86.90/74.19	68.79/50.80
XLM-RoBERTa	86.31	98.89	61.61	70.14	33.30	86.29/71.83	86.88/73.11	88.17/75.93	72.55/54.16

1：在CatalanQA上进行训练，并在XQuAD-ca上进行测试。

其他信息

作者

巴塞罗那超级计算中心（Barcelona Supercomputing Center）的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需更多信息，请发送电子邮件至aina@bsc.es

版权

许可信息

Apache License, Version 2.0

资助

本工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内资助。

引用信息

如果您在工作中使用了这些资源（数据集或模型），请引用我们最新的论文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

免责声明

点击展开

此库中发布的模型仅供广义目的使用，并可提供给第三方使用。这些模型可能存在偏差和/或任何其他不良扭曲。

当第三方使用这些模型（或使用基于这些模型的系统）部署或提供给其他方系统和/或服务，或成为模型的用户时，他们应注意，他们有责任减轻因使用而产生的风险，并始终遵守适用法规，包括关于使用人工智能的法规。

在任何情况下，模型的所有者和创建者（巴塞罗那超级计算中心）对第三方使用这些模型产生的任何结果不承担责任。

作者:

Projecte Aina

数据集大小:

479.82 MB