TurkuNLP/gpt3-finnish-large | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

TurkuNLP/gpt3-finnish-large

任务:

类库:

语言:

其他:

预印本库:

许可:

881M参数的芬兰语生成预训练转换器。

TurkuNLP芬兰GPT-3模型是基于BLOOM架构的预训练单语GPT风格语言模型系列。请注意，这些模型是纯语言模型，意味着它们不适用于对话或回答问题。

这些模型旨在作为基础模型使用，可以通过指令微调来用作现代聊天模型。

所有模型都经过300B的令牌训练。

参数

Model	Layers	Dim	Heads	Params
Small	12	768	12	186M
Medium	24	1024	16	437M
Large	24	1536	16	881M
XL	24	2064	24	1.5B
”3B”	32	2560	32	2.8B
”8B”	32	4096	32	7.5B
"13B"	40	5120	40	13.3B

数据集

我们使用了多个芬兰资源的组合。

Finnish Internet Parsebank https://turkunlp.org/finnish_nlp.html mC4多语言巨额清理后的Common Crawl https://huggingface.co/datasets/mc4
Common Crawl芬兰语 https://TODO
芬兰语维基百科 https://fi.wikipedia.org/wiki
Lönnrot Projekti Lönnrot http://www.lonnrot.net/
电子图书馆国家图书馆“epub”收藏
国家图书馆“lehdet”收藏
Suomi24 The Suomi 24 Corpus 2001-2020 http://urn.fi/urn:nbn:fi:lb-2021101527
Reddit r/Suomi提交和评论 https://www.reddit.com/r/Suomi
STT芬兰新闻机构档案1992-2018 http://urn.fi/urn:nbn:fi:lb-2019041501
Yle芬兰新闻档案2011-2018 http://urn.fi/urn:nbn:fi:lb-2017070501
Yle芬兰新闻档案2019-2020 http://urn.fi/urn:nbn:fi:lb-2021050401
Yle易读芬兰新闻档案2011-2018 http://urn.fi/urn:nbn:fi:lb-2019050901
Yle易读芬兰新闻档案2019-2020 http://urn.fi/urn:nbn:fi:lb-2021050701
ROOTS TODO

抽样比率

Dataset	Chars	Ratio	Weight	W.Ratio
Parsebank	35.0B	16.9%	1.5	22.7%
mC4-Fi	46.3B	22.4%	1.0	20.0%
CC-Fi	79.6B	38.5%	1.0	34.4%
Fiwiki	0.8B	0.4%	3.0	1.0%
Lönnrot	0.8B	0.4%	3.0	1.0%
Yle	1.6B	0.8%	2.0	1.4%
STT	2.2B	1.1%	2.0	1.9%
ePub	13.5B	6.5%	1.0	5.8%
Lehdet	5.8B	2.8%	1.0	2.5%
Suomi24	20.6B	9.9%	1.0	8.9%
Reddit-Fi	0.7B	0.4%	1.0	0.3%
TOTAL	207.0B	100.0%	N/A	100.0%

更多文档和论文即将发布。

作者:

TurkuNLP Research Group

数据集大小:

3.29 GB