模型:

KBLab/bert-base-swedish-cased-new

英文

? BERT 瑞典语

这个 BERT 模型是使用 ? transformers 库训练的。模型大小为正常的 BERT-base,共有 110M 个参数。该模型使用大约 70GB 左右的数据进行训练,主要包括由瑞典国家图书馆策划的 OSCAR 和瑞典报纸文本。为避免过多的填充,字数少于 512 个的文档被连接成一个由 512 个令牌组成的大序列,而字数较多的文档则被分为多个由 512 个令牌组成的序列,后跟 https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py

训练过程中的批次大小为 2048,训练时长略长于 8 个 epochs,共进行了不到 125k 次训练步骤。

该模型还有三个在相同数据集上训练的姊妹模型:

致谢

我们感谢 HPC RIVR 联盟( https://www.hpc-rivr.si )和 EuroHPC JU( https://eurohpc-ju.europa.eu )提供计算资源,资助本研究中在信息科学研究所的 Vega HPC 系统上进行计算。