TurkuNLP/gpt3-finnish-3B | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

TurkuNLP/gpt3-finnish-3B

任务:

类库:

语言:

其他:

预印本库:

许可:

针对芬兰语的GPT-3模型预训练了30亿个参数。

TurkuNLP芬兰GPT-3模型是基于BLOOM架构的预训练的单语GPT风格语言模型系列。请注意，这些模型是纯语言模型，意味着它们不适用于对话或回答问题。

这些模型旨在用作基础模型，可以进行指令微调，以用作现代聊天模型。

所有模型都是用3000亿个标记进行训练。

参数

Model	Layers	Dim	Heads	Params
Small	12	768	12	186M
Medium	24	1024	16	437M
Large	24	1536	16	881M
XL	24	2064	24	1.5B
”3B”	32	2560	32	2.8B
”8B”	32	4096	32	7.5B
"13B"	40	5120	40	13.3B

数据集

我们使用了多个芬兰资源的组合。

芬兰互联网分析库 https://turkunlp.org/finnish_nlp.html mC4多语言巨大数据集，经过清理的Common Crawl数据集 https://huggingface.co/datasets/mc4
Common Crawl芬兰语数据集 https://TODO
芬兰维基百科 https://fi.wikipedia.org/wiki
Lönnrot Projekti Lönnrot http://www.lonnrot.net/
国家图书馆“epub”收集
国家图书馆“lehdet”收集
Suomi24 Suomi 24语料库2001-2020 http://urn.fi/urn:nbn:fi:lb-2021101527
Reddit r/Suomi主题和评论 https://www.reddit.com/r/Suomi
STT芬兰新闻机构档案1992-2018 http://urn.fi/urn:nbn:fi:lb-2019041501
Yle芬兰新闻档案2011-2018 http://urn.fi/urn:nbn:fi:lb-2017070501
Yle芬兰新闻档案2019-2020 http://urn.fi/urn:nbn:fi:lb-2021050401
Yle易读芬兰新闻档案2011-2018 http://urn.fi/urn:nbn:fi:lb-2019050901
Yle易读芬兰新闻档案2019-2020 http://urn.fi/urn:nbn:fi:lb-2021050701
ROOTS TODO

采样比例

Dataset	Chars	Ratio	Weight	W.Ratio
Parsebank	35.0B	16.9%	1.5	22.7%
mC4-Fi	46.3B	22.4%	1.0	20.0%
CC-Fi	79.6B	38.5%	1.0	34.4%
Fiwiki	0.8B	0.4%	3.0	1.0%
Lönnrot	0.8B	0.4%	3.0	1.0%
Yle	1.6B	0.8%	2.0	1.4%
STT	2.2B	1.1%	2.0	1.9%
ePub	13.5B	6.5%	1.0	5.8%
Lehdet	5.8B	2.8%	1.0	2.5%
Suomi24	20.6B	9.9%	1.0	8.9%
Reddit-Fi	0.7B	0.4%	1.0	0.3%
TOTAL	207.0B	100.0%	N/A	100.0%

更多文档和论文即将推出。

作者:

TurkuNLP Research Group

数据集大小:

10.63 GB