模型:

ai-forever/rugpt3medium_based_on_gpt2

英文

rugpt3medium_based_on_gpt2

该模型是由 SberDevices 团队使用transformers库在80B令牌上进行了3个时期的训练,序列长度为1024。之后,模型在2048上下文上进行了微调。

总的训练时间为16天,使用了64个GPU。测试集的最终困惑度为17.4。

作者