模型:
PORTULAN/albertina-ptpt
任务:
填充掩码数据集:
europarl_bilingual assin2 dlb/plue oscar-corpus/OSCAR-2301 PORTULAN/glue-ptpt PORTULAN/parlamento-pt 3APORTULAN/parlamento-pt 3APORTULAN/glue-ptpt 3Aoscar-corpus/OSCAR-2301 3Adlb/plue 3Aassin2 3Aeuroparl_bilingual语言:
pt其他:
deberta-v2 albertina-pt* albertina-ptpt albertina-ptbr bert deberta portuguese encoder foundation model AutoTrain Compatible foundation+model预印本库:
arxiv:2305.06721许可:
mit这是关于Albertina PT-PT的模型卡。你可能对其他模型感兴趣:。
Albertina PT-PT是葡萄牙语的基础大型语言模型。
它是BERT系列的编码器,基于神经结构Transformer,并在DeBERTA模型上开发,对于该语言具有最具竞争力的性能。它有不同的版本,针对不同的葡萄牙语变体(PT)进行训练,包括葡萄牙的欧洲变体(PT-PT)和巴西的美洲变体(PT-BR),并且可以免费和在最允许的许可下进行分发。
Albertina PT-PT是针对葡萄牙的欧洲葡萄牙语(PT-PT)的版本,就我们所知,这是一个专门针对此语言和变体的编码器,
在初始分发时,对其进行了最新的技术状态设置,并公开提供和分发以供重用。
由葡萄牙里斯本大学和波尔图大学的联合团队开发。有关详细信息,请查看相应的:
@misc{albertina-pt, title={Advancing Neural Encoding of Portuguese with Transformer Albertina PT-*}, author={João Rodrigues and Luís Gomes and João Silva and António Branco and Rodrigo Santos and Henrique Lopes Cardoso and Tomás Osório}, year={2023}, eprint={2305.06721}, archivePrefix={arXiv}, primaryClass={cs.CL} }
在使用或引用此模型时,请使用上述规范参考。
此模型卡是Albertina-PT-PT的模型卡,具有900M参数,24层和隐藏大小为1536。
Albertina-PT-PT是根据分发的。
DeBERTa是根据分发的。
Albertina PT-PT是在一个22亿个令牌的数据集上进行训练的,该数据集是通过收集一些公开可用的葡萄牙欧洲语料库而得到的,来源包括:
我们使用了原始的DeBERTa标记器对Albertina-PT-PT进行了128个令牌序列截断和动态填充。模型使用最大可用内存容量进行训练,结果批量大小为832个样本(每个GPU 52个样本,并应用梯度累积以逼近PT-BR模型的批量大小)。与PT-BR变体类似,我们选择了学习率为1e-5,采用线性衰减和10k个预热步骤。然而,由于训练示例的数量约为PT-BR的两倍,我们将训练时期的数量减少了一半,仅完成了25个时期,结果大约为245k步。该模型在Google Cloud A2 VM的a2-highgpu-8GB上训练了3天,使用了8个GPU、96个vCPU和680GB的RAM。
两个模型版本在下游任务中进行了评估,这些任务组织成两组。
在一组任务中,我们有来自的两个数据集,即STS和RTE,这些数据集用于评估之前最先进模型。在另一组数据集中,我们有GLUE任务的PT-BR和PT-PT翻译,这些任务是在广泛使用的中使用的一些任务的PT-BR和PT-PT翻译,这使我们能够在更多的下游任务种测试Albertina-PT-*变体。
ASSIN 2是一个包含大约10,000个句子对的PT-BR数据集,分为6,500个用于训练,500个用于验证,和2,448个用于测试。数据集中的句子对具有语义相关性评分(范围为1到5)和二进制蕴含判断。该数据集支持语义文本相似性(STS)任务,即为两个句子分配一个表示两个句子的语义相关程度的分数;以及用于识别文本蕴含的任务(RTE),即对于给定的一对句子,确定第一个句子是否蕴含第二个句子。