模型:

ai-forever/rugpt3small_based_on_gpt2

英文

rugpt3small_based_on_gpt2

模型通过transformers由 SberDevices 团队使用80B令牌在3个时期左右的1024个序列长度上进行训练。之后,模型在2048个上下文上进行了微调。

总的训练时间为一周,使用了32个GPU。

作者