模型:
EMBEDDIA/sloberta
使用以下方式加载transformers库:
from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("EMBEDDIA/sloberta") model = AutoModelForMaskedLM.from_pretrained("EMBEDDIA/sloberta")
SloBERTa模型是一个单语斯洛文尼亚BERT模型。它与法语Camembert模型密切相关 https://camembert-model.fr/ 。用于训练该模型的语料库总共包含34.7亿个标记。子词汇表包含32,000个标记。用于数据准备和训练模型的脚本和程序可在 https://github.com/clarinsi/Slovene-BERT-Tool 上找到。
SloBERTa进行了20万次迭代训练,大约98个时期。
用于训练该模型的语料库包括: