模型:

TurkuNLP/gpt3-finnish-large

英文

881M参数的芬兰语生成预训练转换器。

TurkuNLP芬兰GPT-3模型是基于BLOOM架构的预训练单语GPT风格语言模型系列。请注意,这些模型是纯语言模型,意味着它们不适用于对话或回答问题。

这些模型旨在作为基础模型使用,可以通过指令微调来用作现代聊天模型。

所有模型都经过300B的令牌训练。

参数

Model Layers Dim Heads Params
Small 12 768 12 186M
Medium 24 1024 16 437M
Large 24 1536 16 881M
XL 24 2064 24 1.5B
”3B” 32 2560 32 2.8B
”8B” 32 4096 32 7.5B
"13B" 40 5120 40 13.3B

数据集

我们使用了多个芬兰资源的组合。

抽样比率

Dataset Chars Ratio Weight W.Ratio
Parsebank 35.0B 16.9% 1.5 22.7%
mC4-Fi 46.3B 22.4% 1.0 20.0%
CC-Fi 79.6B 38.5% 1.0 34.4%
Fiwiki 0.8B 0.4% 3.0 1.0%
Lönnrot 0.8B 0.4% 3.0 1.0%
Yle 1.6B 0.8% 2.0 1.4%
STT 2.2B 1.1% 2.0 1.9%
ePub 13.5B 6.5% 1.0 5.8%
Lehdet 5.8B 2.8% 1.0 2.5%
Suomi24 20.6B 9.9% 1.0 8.9%
Reddit-Fi 0.7B 0.4% 1.0 0.3%
TOTAL 207.0B 100.0% N/A 100.0%

更多文档和论文即将发布。