模型:

EMBEDDIA/sloberta

英文

使用方法

使用以下方式加载transformers库:

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
  tokenizer = AutoTokenizer.from_pretrained("EMBEDDIA/sloberta")
  model = AutoModelForMaskedLM.from_pretrained("EMBEDDIA/sloberta")

SloBERTa

SloBERTa模型是一个单语斯洛文尼亚BERT模型。它与法语Camembert模型密切相关 https://camembert-model.fr/ 。用于训练该模型的语料库总共包含34.7亿个标记。子词汇表包含32,000个标记。用于数据准备和训练模型的脚本和程序可在 https://github.com/clarinsi/Slovene-BERT-Tool 上找到。

SloBERTa进行了20万次迭代训练,大约98个时期。

语料库

用于训练该模型的语料库包括:

  • Gigafida 2.0
  • Kas 1.0
  • Janes 1.0(仅Janes-news, Janes-forum, Janes-blog, Janes-wiki子语料库)
  • 斯洛文尼亚议会语料库siParl 2.0
  • slWaC