模型:

lighteternal/gpt2-finetuned-greek

英文

希腊(el)GPT2模型

由希腊陆军学院(SSE)和克里特技术大学(TUC)创建

  • 语言:el
  • 许可证:apache-2.0
  • 数据集:约23.4 GB的希腊语语料库
  • 模型:GPT2(12层,768个隐藏单元,12个头部,117M参数。基于OpenAI GPT-2英文模型,在希腊语上进行了微调)
  • 预处理:分词+字节对编码(BPE)分割
  • 指标:困惑度

模型描述

这是一个基于Huggingface transformers和fastai的文本生成(自回归)模型,基于英文GPT-2。通过渐进式层解冻进行微调。与从头开始训练相比,这是一种更高效、更可持续的替代方案,特别适用于资源匮乏的语言。基于Thomas Dehaene(ML6)用于创建Dutch GPT2的工作: https://colab.research.google.com/drive/1Y31tjMkB8TqKKFlZ5OJ9fcMp3p8suvs4?usp=sharing

如何使用

from transformers import pipeline

model = "lighteternal/gpt2-finetuned-greek"

generator = pipeline(
    'text-generation',
    device=0,
    model=f'{model}',
    tokenizer=f'{model}')
    
text = "Μια φορά κι έναν καιρό"

print("\
".join([x.get("generated_text") for x in generator(
    text,
    max_length=len(text.split(" "))+15,
    do_sample=True,
    top_k=50,
    repetition_penalty = 1.2,
    add_special_tokens=False,
    num_return_sequences=5,
    temperature=0.95,
    top_p=0.95)]))
    

训练数据

我们使用了来自CC100、Wikimatrix、Tatoeba、Books、SETIMES和GlobalVoices等希腊语语料库的23.4GB样本,其中包含长序列。这是我们的GPT-2小模型的更好版本( https://huggingface.co/lighteternal/gpt2-finetuned-greek-small

指标

Metric Value
Train Loss 3.67
Validation Loss 3.83
Perplexity 39.12

致谢

该研究受希腊研究与创新基金(HFRI)在HFRI博士研究生奖学金(奖学金编号:50,第2轮)下的支持。

基于Thomas Dehaene(ML6)的工作: https://blog.ml6.eu/dutch-gpt2-autoregressive-language-modelling-on-a-budget-cff3942dd020