英文

t5-sl-large

t5-sl-large模型是一个斯洛文尼亚T5模型。它具有24个编码器和24个解码器层,总共约有7.5亿个参数。它在以下语料库上进行了3个时期的训练:

语料库

以下语料库被用于训练该模型:

  • Gigafida 2.0
  • Kas 1.0
  • Janes 1.0(仅限Janes-news、Janes-forum、Janes-blog、Janes-wiki子语料库)
  • Slovenian parliamentary corpus siParl 2.0
  • slWaC

评估

该模型在我们的论文 " Sequence to sequence pretraining for a less-resourced Slovenian language " 中进行了详细描述和评估