英文

针对芬兰语的GPT-3模型预训练了30亿个参数。

TurkuNLP芬兰GPT-3模型是基于BLOOM架构的预训练的单语GPT风格语言模型系列。请注意,这些模型是纯语言模型,意味着它们不适用于对话或回答问题。

这些模型旨在用作基础模型,可以进行指令微调,以用作现代聊天模型。

所有模型都是用3000亿个标记进行训练。

参数

Model Layers Dim Heads Params
Small 12 768 12 186M
Medium 24 1024 16 437M
Large 24 1536 16 881M
XL 24 2064 24 1.5B
”3B” 32 2560 32 2.8B
”8B” 32 4096 32 7.5B
"13B" 40 5120 40 13.3B

数据集

我们使用了多个芬兰资源的组合。

采样比例

Dataset Chars Ratio Weight W.Ratio
Parsebank 35.0B 16.9% 1.5 22.7%
mC4-Fi 46.3B 22.4% 1.0 20.0%
CC-Fi 79.6B 38.5% 1.0 34.4%
Fiwiki 0.8B 0.4% 3.0 1.0%
Lönnrot 0.8B 0.4% 3.0 1.0%
Yle 1.6B 0.8% 2.0 1.4%
STT 2.2B 1.1% 2.0 1.9%
ePub 13.5B 6.5% 1.0 5.8%
Lehdet 5.8B 2.8% 1.0 2.5%
Suomi24 20.6B 9.9% 1.0 8.9%
Reddit-Fi 0.7B 0.4% 1.0 0.3%
TOTAL 207.0B 100.0% N/A 100.0%

更多文档和论文即将推出。