英文

SloBERTa-SlEng

SloBERTa-SlEng 是一个基于 SloBERTa 斯洛文尼亚模型的掩蔽语言模型。

SloBERTa-SlEng 替换了 SloBERTa 模型的分词器、词汇表和嵌入层。所使用的分词器和词汇表是双语的,斯洛文尼亚-英语,基于对话、非标准和俚语,模型的训练语言。它们与 SlEng-bert 模型中的相同。新的嵌入权重是从 SloBERTa 嵌入初始化得到的。

新的 SloBERTa-SlEng 模型是在对话英语和斯洛文尼亚文语料库上进一步预训练的 SloBERTa 模型,与 SlEng-bert 模型相同。

训练语料库

模型是在英语和斯洛文尼亚推特、斯洛文尼亚语料库 MaCoCu Frenk ,以及英语 Oscar 的一个小子集上训练的。我们试图尽量使英语和斯洛文尼亚语料库的大小保持一致。训练语料库总共约有27亿个单词。

框架版本

  • Transformers 4.22.0.dev0
  • Pytorch 1.13.0a0+d321be6
  • Datasets 2.4.0
  • Tokenizers 0.12.1