模型:

nikokons/gpt2-greek

英文

gpt2-greek

数据集:

该模型是在近5GB的希腊文本集合上进行训练的,其中主要来源是希腊维基百科。使用Wikiextractor工具(Attardi, 2012)提取内容。数据集构建为每个样本5个句子(大约370万个样本),并使用字符串<|endoftext|>标记文档的结束,向模型提供段落信息,与Radford对原始GPT-2训练集所做的处理相同。输入句子经过预处理和使用22,000个字节对编码的合并进行分词。

模型:

该模型是GPT-2的"小"版本(12层,768隐藏层,12个头),唯一的区别是最大序列长度设置为512个标记,而不是1024个。

训练细节:

从头开始训练一个生成式Transformer模型作为GPT-2,用大量的希腊文本语料训练,以便模型能够生成连续一致的长文本。所有层都使用0.1的注意力dropout进行正则化,并且使用0.01的L2权重衰减。另外,使用批大小为4和8次迭代的累积梯度,从而获得有效的批大小为32。模型使用Adam优化方案,学习率为1e-4,并进行20个epochs的训练。学习率在前9000次更新中线性增加,并通过使用线性计划表进行线性衰减。实现基于开源的PyTorch-transformer库(HuggingFace 2019)。