CzeGPT-2

CzeGPT-2 是由OpenAI开发的GPT-2语言模型的捷克语版本，并在其之上添加了自回归头部（LM Head）。该模型与GPT-2 small具有相同的架构维度（12层，12个头部，1024个输入/输出的令牌，并具有768维的嵌入向量），可训练参数共计124M。它是在清理后的csTenTen17数据集的5GB切片上进行训练的。

该模型可作为任何需要自回归文本生成的下游任务的良好构建模块。

Tokenizer

同时，我们还提供了一个分词器（词汇表和合并文件），其中词汇表大小为50257，该分词器在预训练阶段使用。它是原论文中使用的字节级BPE分词器，并在整个5GB训练集上进行了训练。

训练结果

该模型在csTenTen17数据集的250MB随机切片上的困惑度为42.12。由于目前尚无捷克自回归模型的竞争（与其他语言的模型比较无意义，因为存在不同的分词和测试数据），因此该值无法与其他模型直接进行比较。

运行预测

该代码库包含一个简单的Jupyter Notebook，可帮助您使用该模型的初步步骤。

如何引用

@unpublished{hajek_horak2023, author = "Adam Hájek and Aleš Horák", title = "CzeGPT-2 – Czech Summarization Task的新模型", year = "2023", }

作者:

NLP Centre, Faculty of Informatics, Masaryk University

数据集大小:

488.21 MB