模型:
youscan/ukr-roberta-base
下面是使用的语料库列表,以及wc命令的输出(计算行数、单词数和字符数)。这些语料库被连接并使用HuggingFace Roberta Tokenizer进行了分词。
Tables | Lines | Words | Characters |
---|---|---|---|
1230321 | 18 001 466 | 201 207 739 | 2 647 891 947 |
1231321 | 56 560 011 | 2 250 210 650 | 29 705 050 592 |
Sampled mentions from social networks | 11 245 710 | 128 461 796 | 1 632 567 763 |
Total | 85 807 187 | 2 579 880 185 | 33 985 510 302 |
Vitalii Radchenko - 在Twitter上联系我 @vitaliradchenko