模型:

DeepPavlov/rubert-base-cased

英文

rubert-base-cased

RuBERT(俄语,大小写敏感,12层,768隐藏层,12个注意力头,180M参数)是在俄语维基百科和新闻数据上训练的。我们使用这些训练数据构建了俄语子标记的词汇表,并采用了BERT-base的多语言版本作为RuBERT的初始化[1]。

08.11.2021:上传包含MLM和NSP头的模型

[1]: Kuratov,Y.,Arkhipov,M.(2019)。调整深度双向多语言Transformer用于俄语的方法。arXiv预印本 arXiv:1905.07213