英文

这是关于Albertina PT-PT的模型卡。你可能对其他模型感兴趣:

Albertina PT-PT

Albertina PT-PT是葡萄牙语的基础大型语言模型。

它是BERT系列的编码器,基于神经结构Transformer,并在DeBERTA模型上开发,对于该语言具有最具竞争力的性能。它有不同的版本,针对不同的葡萄牙语变体(PT)进行训练,包括葡萄牙的欧洲变体(PT-PT)和巴西的美洲变体(PT-BR),并且可以免费和在最允许的许可下进行分发。

Albertina PT-PT是针对葡萄牙的欧洲葡萄牙语(PT-PT)的版本,就我们所知,这是一个专门针对此语言和变体的编码器,

在初始分发时,对其进行了最新的技术状态设置,并公开提供和分发以供重用。

由葡萄牙里斯本大学和波尔图大学的联合团队开发。有关详细信息,请查看相应的

@misc{albertina-pt,
      title={Advancing Neural Encoding of Portuguese
             with Transformer Albertina PT-*}, 
      author={João Rodrigues and Luís Gomes and João Silva and
              António Branco and Rodrigo Santos and
              Henrique Lopes Cardoso and Tomás Osório},
      year={2023},
      eprint={2305.06721},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

在使用或引用此模型时,请使用上述规范参考。

模型说明

此模型卡是Albertina-PT-PT的模型卡,具有900M参数,24层和隐藏大小为1536。

Albertina-PT-PT是根据分发的。

DeBERTa是根据分发的。

训练数据

Albertina PT-PT是在一个22亿个令牌的数据集上进行训练的,该数据集是通过收集一些公开可用的葡萄牙欧洲语料库而得到的,来源包括:

这又是在27亿个令牌数据集上进行的训练。

预处理

我们使用流程对葡萄牙语-葡萄牙语语料进行了过滤,得到了一个包含大约8百万个文档的数据集,其中包含约22亿个令牌。由于这可能破坏句法结构,我们跳过了常规的停用词过滤,并且由于语料已经预先选择为葡萄牙语,我们也跳过了语言识别过滤。

训练

我们使用了原始的DeBERTa标记器对Albertina-PT-PT进行了128个令牌序列截断和动态填充。模型使用最大可用内存容量进行训练,结果批量大小为832个样本(每个GPU 52个样本,并应用梯度累积以逼近PT-BR模型的批量大小)。与PT-BR变体类似,我们选择了学习率为1e-5,采用线性衰减和10k个预热步骤。然而,由于训练示例的数量约为PT-BR的两倍,我们将训练时期的数量减少了一半,仅完成了25个时期,结果大约为245k步。该模型在Google Cloud A2 VM的a2-highgpu-8GB上训练了3天,使用了8个GPU、96个vCPU和680GB的RAM。

对于,BrWac数据集使用原始的DeBERTA标记器进行了128个令牌序列截断和动态填充。模型使用最大可用内存容量进行训练,结果批量大小为896个样本(每个GPU 56个样本,没有梯度累积步骤)。我们选择了学习率为1e-5,采用线性衰减和10k个预热步骤,这是根据探索性实验的结果选择的。总共进行了约20万个训练步骤,跨越50个时期。该模型在Google Cloud A2 VM的a2-megagpu-16GB上训练了1天11小时,使用了16个GPU、96个vCPU和1.360GB的RAM。

评估

两个模型版本在下游任务中进行了评估,这些任务组织成两组。

在一组任务中,我们有来自的两个数据集,即STS和RTE,这些数据集用于评估之前最先进模型。在另一组数据集中,我们有GLUE任务的PT-BR和PT-PT翻译,这些任务是在广泛使用的中使用的一些任务的PT-BR和PT-PT翻译,这使我们能够在更多的下游任务种测试Albertina-PT-*变体。

ASSIN 2

ASSIN 2是一个包含大约10,000个句子对的PT-BR数据集,分为6,500个用于训练,500个用于验证,和2,448个用于测试。数据集中的句子对具有语义相关性评分(范围为1到5)和二进制蕴含判断。该数据集支持语义文本相似性(STS)任务,即为两个句子分配一个表示两个句子的语义相关程度的分数;以及用于识别文本蕴含的任务(RTE),即对于给定的一对句子,确定第一个句子是否蕴含第二个句子。

翻译的GLUE任务

我们使用(Portuguese Language Understanding Evaluation)数据集,它是通过自动将GLUE翻译成PT-BR获得的。我们从PLUE中选择了四个任务,包括:

我们使用,该数据集是GLUE基准的PT-PT版本。我们使用进行了同样四个任务的翻译,该工具专门提供从英语到PT-PT的翻译选项。

如何使用

您可以直接使用此模型进行遮盖语言模型的流水线:

模型可以通过针对特定任务进行微调来使用:

引用

在使用或引用此模型时,请引用以下

致谢

这里报告的研究部分得到以下支持:PORTULAN CLARIN-语言科学和技术研究基础设施,由Lisboa 2020、Alentejo 2020和FCT-科学和技术基金会在PINFRA/22117/2016授予的补助金支持;研究项目ALBERTINA-葡萄牙语和AI的基础编码器模型,由FCT-科学和技术基金会在CPCA-IAC/AV/478394/2022授予的补助金支持;创新项目ACCELERAT.AI-多语言智能联系中心,由IAPMEI、I.P. -面向竞争力和创新局在Plano de Recuperação e Resiliência项目的RE-C05-i01.01 - Agendas/Alianças Mobilizadoras para a Reindustrialização的资助下,授予C625734525-00462629的补助金;以及LIACC-人工智能和计算机科学实验室,由FCT-科学和技术基金会在FCT/UID/CEC/0027/2020授予的补助金支持。