英文

Catalan BERTa-v2 (roberta-base-ca-v2),用于语义文本相似度的微调模型

目录

点击展开
  • 模型描述
  • 预期使用和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 训练数据
    • 训练过程
  • 评估
    • 变量和指标
    • 评估结果
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资助
    • 引用信息
    • 免责声明

模型描述

roberta-base-ca-v2-cased-sts 是用于加泰罗尼亚语(Catalan)的语义文本相似度(STS)模型,通过对 roberta-base-ca-v2 模型进行微调得到, RoBERTa 是一个在公开可用的语料库和网络爬虫收集的中等规模语料训练的基础模型(详见 roberta-base-ca-v2 模型卡片获取更多详细信息)。

预期使用和限制

roberta-base-ca-v2-cased-sts 模型可用于评估两个文本片段之间的相似性。该模型受其训练数据集的限制,可能无法对所有用例进行很好的推广。

如何使用

要获得正确的模型预测分数,取值介于0.0和5.0之间,请使用以下代码:

from transformers import pipeline, AutoTokenizer
from scipy.special import logit

model = 'projecte-aina/roberta-base-ca-v2-cased-sts'
tokenizer = AutoTokenizer.from_pretrained(model)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)

def prepare(sentence_pairs):
    sentence_pairs_prep = []
    for s1, s2 in sentence_pairs:
        sentence_pairs_prep.append(f"{tokenizer.cls_token} {s1}{tokenizer.sep_token}{tokenizer.sep_token} {s2}{tokenizer.sep_token}")
    return sentence_pairs_prep

sentence_pairs = [("El llibre va caure per la finestra.", "El llibre va sortir volant."),
                  ("M'agrades.", "T'estimo."),
                  ("M'agrada el sol i la calor", "A la Garrotxa plou molt.")]

predictions = pipe(prepare(sentence_pairs), add_special_tokens=False)

# convert back to scores to the original 0 and 5 interval
for prediction in predictions:
    prediction['score'] = logit(prediction['score'])
print(predictions)

预期输出:

[{'label': 'SIMILARITY', 'score': 2.118301674983813}, 
{'label': 'SIMILARITY', 'score': 2.1799755855125853}, 
{'label': 'SIMILARITY', 'score': 0.9511617858568939}]

避免使用归一化的小部件得分,因为它们不反映原始注释值。

限制和偏见

在提交时,我们没有采取措施来估计模型中嵌入的偏见。然而,我们也很清楚我们的模型可能存在偏见,因为这些语料库是通过在多个网络来源上使用爬虫技术收集的。我们计划在未来对这些领域进行研究,如果完成,将更新模型卡片。

训练

训练数据

为训练和评估,我们使用了加泰罗尼亚语的 STS 数据集 STS-ca

训练过程

模型使用批量大小为16和学习率为5e-5进行了5个周期的训练。然后,我们使用相应开发集中的下游任务指标选择了最佳检查点,然后在测试集上进行了评估。

评估

变量和指标

该模型的微调是通过最大化皮尔逊相关系数和斯皮尔曼相关系数之间的平均分数进行的。

评估结果

我们在 STS-ca 测试集上使用标准的多语言和单语言基线来评估 roberta-base-ca-v2-cased-sts:

Model STS-ca (Combined score)
roberta-base-ca-v2-cased-sts 79.07
roberta-base-ca-cased-sts 80.19
mBERT 74.26
XLM-RoBERTa 61.61

有关详细信息,请查看官方 GitHub repository 中的微调和评估脚本。

附加信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单位(TeMU)(bsc-temu@bsc.es)

联系信息

若要获取更多信息,请发送电子邮件至 aina@bsc.es

版权

版权所有(c)2022 年 巴塞罗那超级计算中心 文本挖掘单位

许可信息

Apache License, Version 2.0

资助

该工作受 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 框架内的 Projecte AINA 资助。

引用信息

如果您在工作中使用了这些资源(数据集或模型),请引用我们最新的论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

免责声明

点击展开

本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏见和/或任何其他不希望的失真。

当第三方使用这些模型(或基于这些模型的系统)部署或提供给其他方的系统和/或服务,或成为模型的用户时,他们应该注意,他们有责任减轻由其使用造成的风险,并且无论如何都要遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)不承担第三方使用这些模型产生的任何结果的责任。