模型:
TurkuNLP/gpt3-finnish-large
881M参数的芬兰语生成预训练转换器。
TurkuNLP芬兰GPT-3模型是基于BLOOM架构的预训练单语GPT风格语言模型系列。请注意,这些模型是纯语言模型,意味着它们不适用于对话或回答问题。
这些模型旨在作为基础模型使用,可以通过指令微调来用作现代聊天模型。
所有模型都经过300B的令牌训练。
参数
Model | Layers | Dim | Heads | Params |
---|---|---|---|---|
Small | 12 | 768 | 12 | 186M |
Medium | 24 | 1024 | 16 | 437M |
Large | 24 | 1536 | 16 | 881M |
XL | 24 | 2064 | 24 | 1.5B |
”3B” | 32 | 2560 | 32 | 2.8B |
”8B” | 32 | 4096 | 32 | 7.5B |
"13B" | 40 | 5120 | 40 | 13.3B |
数据集
我们使用了多个芬兰资源的组合。
抽样比率
Dataset | Chars | Ratio | Weight | W.Ratio |
---|---|---|---|---|
Parsebank | 35.0B | 16.9% | 1.5 | 22.7% |
mC4-Fi | 46.3B | 22.4% | 1.0 | 20.0% |
CC-Fi | 79.6B | 38.5% | 1.0 | 34.4% |
Fiwiki | 0.8B | 0.4% | 3.0 | 1.0% |
Lönnrot | 0.8B | 0.4% | 3.0 | 1.0% |
Yle | 1.6B | 0.8% | 2.0 | 1.4% |
STT | 2.2B | 1.1% | 2.0 | 1.9% |
ePub | 13.5B | 6.5% | 1.0 | 5.8% |
Lehdet | 5.8B | 2.8% | 1.0 | 2.5% |
Suomi24 | 20.6B | 9.9% | 1.0 | 8.9% |
Reddit-Fi | 0.7B | 0.4% | 1.0 | 0.3% |
TOTAL | 207.0B | 100.0% | N/A | 100.0% |
更多文档和论文即将发布。