英文

GPT-sl-base

这个模型是基于Megatron的 bigscience workshop 版本修改的斯洛文尼亚GPT模型。GPT-sl-base是在Gigafida、KAS、slWaC和MaCoCu等大型斯洛文尼亚语语料库上进行训练的。

模型架构

GPT-sl-base拥有大约1.1亿个参数。它由12个变压器层组成,每层的维度为768。它有16个注意力头,可以处理最长为1024个记号的序列。分词器是在较小的一部分语料库上进行训练的,并且有60k个记号的词汇表。

训练

该模型训练了约20个时期,总共进行了390k步或102B个记号的训练。

Step Validation Perplexity
50000 26.801
100000 25.574
150000 24.773
200000 24.099
250000 23.336
300000 22.607
350000 22.329
390000 22.293