希腊（el）GPT2模型

由希腊陆军学院（SSE）和克里特技术大学（TUC）创建

语言：el
许可证：apache-2.0
数据集：约23.4 GB的希腊语语料库
模型：GPT2（12层，768个隐藏单元，12个头部，117M参数。基于OpenAI GPT-2英文模型，在希腊语上进行了微调）
预处理：分词+字节对编码（BPE）分割
指标：困惑度

模型描述

这是一个基于Huggingface transformers和fastai的文本生成（自回归）模型，基于英文GPT-2。通过渐进式层解冻进行微调。与从头开始训练相比，这是一种更高效、更可持续的替代方案，特别适用于资源匮乏的语言。基于Thomas Dehaene（ML6）用于创建Dutch GPT2的工作： https://colab.research.google.com/drive/1Y31tjMkB8TqKKFlZ5OJ9fcMp3p8suvs4?usp=sharing

如何使用

from transformers import pipeline

model = "lighteternal/gpt2-finetuned-greek"

generator = pipeline(
    'text-generation',
    device=0,
    model=f'{model}',
    tokenizer=f'{model}')
    
text = "Μια φορά κι έναν καιρό"

print("\
".join([x.get("generated_text") for x in generator(
    text,
    max_length=len(text.split(" "))+15,
    do_sample=True,
    top_k=50,
    repetition_penalty = 1.2,
    add_special_tokens=False,
    num_return_sequences=5,
    temperature=0.95,
    top_p=0.95)]))

训练数据

我们使用了来自CC100、Wikimatrix、Tatoeba、Books、SETIMES和GlobalVoices等希腊语语料库的23.4GB样本，其中包含长序列。这是我们的GPT-2小模型的更好版本（ https://huggingface.co/lighteternal/gpt2-finetuned-greek-small ）

指标

Metric	Value
Train Loss	3.67
Validation Loss	3.83
Perplexity	39.12

致谢

该研究受希腊研究与创新基金（HFRI）在HFRI博士研究生奖学金（奖学金编号：50，第2轮）下的支持。

基于Thomas Dehaene（ML6）的工作： https://blog.ml6.eu/dutch-gpt2-autoregressive-language-modelling-on-a-budget-cff3942dd020

作者:

Dimitris Papadopoulos

数据集大小:

964.42 MB