模型:

KBLab/megatron-bert-large-swedish-cased-165k

英文

Megatron-BERT-large Swedish 165k

这个BERT模型是使用Megatron-LM库进行训练的。模型的大小是一个常规的BERT-large,具有340M个参数。模型使用了大约70GB的数据进行训练,其中包括由瑞典国家图书馆策划的OSCAR和瑞典报纸文本。

训练步骤为165k,批次大小为8k;训练步骤的数量被设置为500k,意味着这个版本是一个检查点。训练的超参数遵循了RoBERTa的设置。

模型有三个在相同数据集上训练的姊妹模型:

以及一个早期的检查点

致谢

我们衷心感谢HPC RIVR联盟( https://www.hpc-rivr.si )和EuroHPC JU( https://eurohpc-ju.europa.eu )提供HPC系统Vega在信息科学研究所的计算资源来资助这项研究。