英文

CzeGPT-2

CzeGPT-2 是由OpenAI开发的GPT-2语言模型的捷克语版本,并在其之上添加了自回归头部(LM Head)。该模型与GPT-2 small具有相同的架构维度(12层,12个头部,1024个输入/输出的令牌,并具有768维的嵌入向量),可训练参数共计124M。它是在清理后的csTenTen17数据集的5GB切片上进行训练的。

该模型可作为任何需要自回归文本生成的下游任务的良好构建模块。

Tokenizer

同时,我们还提供了一个分词器(词汇表和合并文件),其中词汇表大小为50257,该分词器在预训练阶段使用。它是原论文中使用的字节级BPE分词器,并在整个5GB训练集上进行了训练。

训练结果

该模型在csTenTen17数据集的250MB随机切片上的困惑度为42.12。由于目前尚无捷克自回归模型的竞争(与其他语言的模型比较无意义,因为存在不同的分词和测试数据),因此该值无法与其他模型直接进行比较。

运行预测

该代码库包含一个简单的Jupyter Notebook,可帮助您使用该模型的初步步骤。

如何引用

@unpublished{hajek_horak2023, author = "Adam Hájek and Aleš Horák", title = "CzeGPT-2 – Czech Summarization Task的新模型", year = "2023", }