英文

Nordic ELECTRA-Small

此模型是在以下语料库上进行预训练的:

在文档级去重和过滤后,该语料库的总大小为14.82B词元,四种语言的数量相等。该模型使用WordPiece分词器进行训练,词汇表大小为96,105,一共进行了一百万步训练,批量大小为256,其余设置为默认值。

致谢

该研究得到了谷歌TPU研究云平台的云TPU支持。

该项目由冰岛教育、科学和文化部资助,冰岛语言技术计划 2019-2023进行管理和协调。