该模型用于生成中文文本。您可以从链接或通过HuggingFace的链接下载该模型。模型被称为GPT2-distil,因为它的配置遵循链接,具有6层、768维度和12个头。预训练过程不涉及较大模型的监督。
您可以直接使用文本生成的管道来使用该模型:
链接用作训练数据的是链接。
该模型是由链接在链接上预训练的。我们先使用序列长度为128的方式进行100万步的预训练,然后再使用序列长度为1024的方式预训练250,000步。
阶段1:
链接链接阶段2:
链接链接最后,我们将预训练的模型转换为Huggingface的格式:
链接