? BERT 瑞典语

这个 BERT 模型是使用 ? transformers 库训练的。模型大小为正常的 BERT-base，共有 110M 个参数。该模型使用大约 70GB 左右的数据进行训练，主要包括由瑞典国家图书馆策划的 OSCAR 和瑞典报纸文本。为避免过多的填充，字数少于 512 个的文档被连接成一个由 512 个令牌组成的大序列，而字数较多的文档则被分为多个由 512 个令牌组成的序列，后跟 https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py 。

训练过程中的批次大小为 2048，训练时长略长于 8 个 epochs，共进行了不到 125k 次训练步骤。

该模型还有三个在相同数据集上训练的姊妹模型：

致谢

我们感谢 HPC RIVR 联盟（ https://www.hpc-rivr.si ）和 EuroHPC JU（ https://eurohpc-ju.europa.eu ）提供计算资源，资助本研究中在信息科学研究所的 Vega HPC 系统上进行计算。

作者:

National Library of Sweden / KBLab

数据集大小:

1.01 GB