模型:
DeepPavlov/rubert-base-cased
RuBERT(俄语,大小写敏感,12层,768隐藏层,12个注意力头,180M参数)是在俄语维基百科和新闻数据上训练的。我们使用这些训练数据构建了俄语子标记的词汇表,并采用了BERT-base的多语言版本作为RuBERT的初始化[1]。
08.11.2021:上传包含MLM和NSP头的模型
[1]: Kuratov,Y.,Arkhipov,M.(2019)。调整深度双向多语言Transformer用于俄语的方法。arXiv预印本 arXiv:1905.07213 。