模型:
cjvt/gpt-sl-base
这个模型是基于Megatron的 bigscience workshop 版本修改的斯洛文尼亚GPT模型。GPT-sl-base是在Gigafida、KAS、slWaC和MaCoCu等大型斯洛文尼亚语语料库上进行训练的。
GPT-sl-base拥有大约1.1亿个参数。它由12个变压器层组成,每层的维度为768。它有16个注意力头,可以处理最长为1024个记号的序列。分词器是在较小的一部分语料库上进行训练的,并且有60k个记号的词汇表。
该模型训练了约20个时期,总共进行了390k步或102B个记号的训练。
Step | Validation Perplexity |
---|---|
50000 | 26.801 |
100000 | 25.574 |
150000 | 24.773 |
200000 | 24.099 |
250000 | 23.336 |
300000 | 22.607 |
350000 | 22.329 |
390000 | 22.293 |