模型:

ai-forever/rugpt2large

英文

rugpt2large

该模型是由 SberDevices 团队使用64个GPU进行3周的训练,使用1024的序列长度在170GB的数据上使用transformers进行训练的。