英文

中文GPT2-distil模型

模型描述

该模型用于生成中文文本。您可以从链接或通过HuggingFace的链接下载该模型。模型被称为GPT2-distil,因为它的配置遵循链接,具有6层、768维度和12个头。预训练过程不涉及较大模型的监督。

如何使用

您可以直接使用文本生成的管道来使用该模型:

链接

训练数据

用作训练数据的是链接

训练过程

该模型是由链接链接上预训练的。我们先使用序列长度为128的方式进行100万步的预训练,然后再使用序列长度为1024的方式预训练250,000步。

阶段1:

链接链接

阶段2:

链接链接

最后,我们将预训练的模型转换为Huggingface的格式:

链接

BibTeX引用和引文信息

链接