模型:
TurkuNLP/gpt3-finnish-3B
针对芬兰语的GPT-3模型预训练了30亿个参数。
TurkuNLP芬兰GPT-3模型是基于BLOOM架构的预训练的单语GPT风格语言模型系列。请注意,这些模型是纯语言模型,意味着它们不适用于对话或回答问题。
这些模型旨在用作基础模型,可以进行指令微调,以用作现代聊天模型。
所有模型都是用3000亿个标记进行训练。
参数
Model | Layers | Dim | Heads | Params |
---|---|---|---|---|
Small | 12 | 768 | 12 | 186M |
Medium | 24 | 1024 | 16 | 437M |
Large | 24 | 1536 | 16 | 881M |
XL | 24 | 2064 | 24 | 1.5B |
”3B” | 32 | 2560 | 32 | 2.8B |
”8B” | 32 | 4096 | 32 | 7.5B |
"13B" | 40 | 5120 | 40 | 13.3B |
数据集
我们使用了多个芬兰资源的组合。
采样比例
Dataset | Chars | Ratio | Weight | W.Ratio |
---|---|---|---|---|
Parsebank | 35.0B | 16.9% | 1.5 | 22.7% |
mC4-Fi | 46.3B | 22.4% | 1.0 | 20.0% |
CC-Fi | 79.6B | 38.5% | 1.0 | 34.4% |
Fiwiki | 0.8B | 0.4% | 3.0 | 1.0% |
Lönnrot | 0.8B | 0.4% | 3.0 | 1.0% |
Yle | 1.6B | 0.8% | 2.0 | 1.4% |
STT | 2.2B | 1.1% | 2.0 | 1.9% |
ePub | 13.5B | 6.5% | 1.0 | 5.8% |
Lehdet | 5.8B | 2.8% | 1.0 | 2.5% |
Suomi24 | 20.6B | 9.9% | 1.0 | 8.9% |
Reddit-Fi | 0.7B | 0.4% | 1.0 | 0.3% |
TOTAL | 207.0B | 100.0% | N/A | 100.0% |
更多文档和论文即将推出。