模型:

KBLab/megatron-bert-base-swedish-cased-600k

英文

Megatron-BERT-base Swedish 600k

这个BERT模型是使用Megatron-LM库进行训练的。模型的大小为一个拥有1.1亿个参数的正常BERT-base模型。该模型在约70GB的数据上进行训练,主要包括OSCAR和由瑞典国家图书馆策划的瑞典报纸文本。

训练过程一共进行了600,000个训练步骤。它的 sister model 次使用相同的设置,但只进行了125,000个步骤的训练。

该模型还有三个在相同数据集上训练的姊妹模型:

致谢

我们衷心感谢HPC RIVR联盟( https://www.hpc-rivr.si )和EuroHPC JU( https://eurohpc-ju.europa.eu )通过提供信息科学研究所Vega HPC系统的计算资源来资助该研究。