模型:

ai-forever/rugpt3large_based_on_gpt2

英文

rugpt3large_based_on_gpt2

该模型是由 SberDevices 团队使用transformers库进行训练的,使用长度为1024的序列,在80B的标记上进行了3个时期的训练。之后,模型使用长度为2048的序列进行了1个时期的微调。

全面的训练时间约为14天,使用128个GPU进行1024上下文训练,以及几天使用16个GPU进行2048上下文训练。测试集上的最终困惑度为13.6。

作者