模型:

youscan/ukr-roberta-base

英文

ukr-roberta-base

Pre-training corpora

下面是使用的语料库列表,以及wc命令的输出(计算行数、单词数和字符数)。这些语料库被连接并使用HuggingFace Roberta Tokenizer进行了分词。

Tables Lines Words Characters
1230321 18 001 466 201 207 739 2 647 891 947
1231321 56 560 011 2 250 210 650 29 705 050 592
Sampled mentions from social networks 11 245 710 128 461 796 1 632 567 763
Total 85 807 187 2 579 880 185 33 985 510 302

Pre-training details

  • Ukrainian Roberta是使用提供的代码进行训练的 HuggingFace tutorial
  • 目前发布的模型遵循roberta-base-cased模型结构(12层、768隐藏层、12个头部、125M参数)
  • 该模型在4xV100上进行了训练(85小时)
  • 您可以在 original repository 中找到训练配置

作者

Vitalii Radchenko - 在Twitter上联系我 @vitaliradchenko