模型:
projecte-aina/roberta-large-ca-v2
roberta-large-ca-v2是基于Catalan语言的基于转换的掩码语言模型。它基于 RoBERTA 大型模型,并经过训练,训练语料库从公开可用的语料库和网络爬虫中收集而来。
roberta-large-ca-v2模型仅用于填充语言建模的任务,即填充掩码任务(尝试使用推理API或阅读下一部分)。但是,它可以用于非生成下游任务的微调,如问答、文本分类或命名实体识别。
以下是使用此模型的方法:
from transformers import AutoModelForMaskedLM from transformers import AutoTokenizer, FillMaskPipeline from pprint import pprint tokenizer_hf = AutoTokenizer.from_pretrained('projecte-aina/roberta-large-ca-v2') model = AutoModelForMaskedLM.from_pretrained('projecte-aina/roberta-large-ca-v2') model.eval() pipeline = FillMaskPipeline(model, tokenizer_hf) text = f"Em dic <mask>." res_hf = pipeline(text) pprint([r['token_str'] for r in res_hf])
在提交时,尚未采取任何措施来估计模型中嵌入的偏见。然而,我们非常清楚我们的模型可能存在偏见,因为使用爬网技术从多个网络源收集了语料库。我们打算将来在这些领域进行研究,并在完成后更新此模型卡。
训练语料库由从网络爬虫和公共语料库中收集的多个语料库组成。
Corpus | Size in GB |
---|---|
Catalan Crawling | 13.00 |
Wikipedia | 1.10 |
DOGC | 0.78 |
Catalan Open Subtitles | 0.02 |
Catalan Oscar | 4.00 |
CaWaC | 3.60 |
Cat. General Crawling | 2.50 |
Cat. Goverment Crawling | 0.24 |
ACN | 0.42 |
Padicat | 0.63 |
RacoCatalá | 8.10 |
Nació Digital | 0.42 |
Vilaweb | 0.06 |
Tweets | 0.02 |
训练语料库已使用50,262个令牌的原始 Byte-Pair Encoding (BPE) (用于原始 RoBERTA 模型)的字节版本进行标记化。RoBERTa-large预训练包括与原始工作中相同超参数的掩码语言模型训练。训练持续了96小时,使用了32个16GB DDRAM的NVIDIA V100 GPU。
BERTa-large模型已经在Catalan Language Understanding Evaluation基准测试(CLUB)的下游任务上进行了微调,这些任务是与该模型一起创建的。
它包含以下任务及其相关数据集:
命名实体识别(NER)
NER (AnCora) :从原始 Ancora 版本中提取的命名实体,过滤掉一些非传统的实体,如书名,并将其转换为标准的CONLL-IOB格式
词性标注(POS)
POS (AnCora) :来自着名的Ancora语料库的 Universal Dependencies treebank 。
文本分类(TC)
文本蕴含(TE)
TE-ca :包含21,163对前提和假设的数据集,根据它们的推理关系(蕴含、矛盾或中性)进行了注释,从 Catalan Textual Corpus 中提取。
语义文本相似性(STS)
STS-ca :包含3000多个句子对的数据集,注释了它们之间的语义相似性,从 Catalan Textual Corpus 中抓取。
问答(QA):
VilaQuAD :包含6282个问题和答案对,从2095篇用Catalan语言编写的文章的VilaWeb新闻稿中外包而来。
ViquiQuAD :包含15000多个问题,从随机选择的596篇原始以Catalan语言编写的维基百科文章中外包而来。
CatalanQA :汇集了2个先前的数据集(VilaQuAD和ViquiQuAD),包含21427个问题/答案对,根据问题类型平衡,每个上下文包含一个问题和一个答案,尽管上下文可以多次重复出现。
XQuAD-ca :XQuAD的Catalan翻译,这是一个多语言数据集,手动从英文维基百科中翻译的1190个问题-答案对,仅用作测试集。
以下是数据集的训练/验证/测试拆分:
Task (Dataset) | Total | Train | Dev | Test |
---|---|---|---|---|
NER (Ancora) | 13,581 | 10,628 | 1,427 | 1,526 |
POS (Ancora) | 16,678 | 13,123 | 1,709 | 1,846 |
STS (STS-ca) | 3,073 | 2,073 | 500 | 500 |
TC (TeCla) | 137,775 | 110,203 | 13,786 | 13,786 |
TE (TE-ca) | 21,163 | 16,930 | 2,116 | 2,117 |
QA (VilaQuAD) | 6,282 | 3,882 | 1,200 | 1,200 |
QA (ViquiQuAD) | 14,239 | 11,255 | 1,492 | 1,429 |
QA (CatalanQA) | 21,427 | 17,135 | 2,157 | 2,135 |
Task | NER (F1) | POS (F1) | STS-ca (Comb) | TeCla (Acc.) | TEca (Acc.) | VilaQuAD (F1/EM) | ViquiQuAD (F1/EM) | CatalanQA (F1/EM) | XQuAD-ca 1 (F1/EM) |
---|---|---|---|---|---|---|---|---|---|
RoBERTa-large-ca-v2 | 89.82 | 99.02 | 83.41 | 75.46 | 83.61 | 89.34/75.50 | 89.20 /75.77 | 90.72/79.06 | 73.79 /55.34 |
RoBERTa-base-ca-v2 | 89.29 | 98.96 | 79.07 | 74.26 | 83.14 | 87.74/72.58 | 88.72/ 75.91 | 89.50/76.63 | 73.64/ 55.42 |
BERTa | 89.76 | 98.96 | 80.19 | 73.65 | 79.26 | 85.93/70.58 | 87.12/73.11 | 89.17/77.14 | 69.20/51.47 |
mBERT | 86.87 | 98.83 | 74.26 | 69.90 | 74.63 | 82.78/67.33 | 86.89/73.53 | 86.90/74.19 | 68.79/50.80 |
XLM-RoBERTa | 86.31 | 98.89 | 61.61 | 70.14 | 33.30 | 86.29/71.83 | 86.88/73.11 | 88.17/75.93 | 72.55/54.16 |
1:在CatalanQA上进行训练,然后在XQuAD-ca上进行测试。
巴塞罗那超级计算中心的文本挖掘部门(bsc-temu@bsc.es)
如需进一步了解,请发送电子邮件至aina@bsc.es
版权所有(c)2022年巴塞罗那超级计算中心文本挖掘部门
该工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内支持。
如果您在您的工作中使用了这些资源(数据集或模型),请引用我们最新的论文:
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
此仓库中发布的模型仅供通用目的使用,并可供第三方使用。这些模型可能存在偏见和/或任何其他不良失真。
当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或者成为模型的用户时,他们应意识到减轻使用所带来的风险是他们的责任,并且无论如何,都需遵守适用的法规,包括关于使用人工智能的法规。
在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心 - BSC)对第三方使用这些模型所产生的结果不承担任何责任。