英文

t5-sl-small

t5-sl-small模型是一个斯洛文尼亚T5模型。它有8个编码器层和8个解码器层,总共约6000万个参数。它在以下语料库上进行了5个epoch的训练:

语料库

下面的语料库用于训练该模型:

  • Gigafida 2.0
  • Kas 1.0
  • Janes 1.0(仅Janes-news、Janes-forum、Janes-blog、Janes-wiki子语料库)
  • Slovenian parliamentary corpus siParl 2.0
  • slWaC

评估

该模型在我们的论文 " Sequence to sequence pretraining for a less-resourced Slovenian language " 中详细描述并进行了评估

更新日志

2022-07-21: 使用模型的v2版本进行了更新,旧版本仍可通过 cjvt/legacy-t5-sl-small 访问。2022-09-21: 添加了快速分词器(Huggingface的TokenizerFast类,分词仍保持不变)