模型:
lighteternal/gpt2-finetuned-greek
这是一个基于Huggingface transformers和fastai的文本生成(自回归)模型,基于英文GPT-2。通过渐进式层解冻进行微调。与从头开始训练相比,这是一种更高效、更可持续的替代方案,特别适用于资源匮乏的语言。基于Thomas Dehaene(ML6)用于创建Dutch GPT2的工作: https://colab.research.google.com/drive/1Y31tjMkB8TqKKFlZ5OJ9fcMp3p8suvs4?usp=sharing
from transformers import pipeline model = "lighteternal/gpt2-finetuned-greek" generator = pipeline( 'text-generation', device=0, model=f'{model}', tokenizer=f'{model}') text = "Μια φορά κι έναν καιρό" print("\ ".join([x.get("generated_text") for x in generator( text, max_length=len(text.split(" "))+15, do_sample=True, top_k=50, repetition_penalty = 1.2, add_special_tokens=False, num_return_sequences=5, temperature=0.95, top_p=0.95)]))
我们使用了来自CC100、Wikimatrix、Tatoeba、Books、SETIMES和GlobalVoices等希腊语语料库的23.4GB样本,其中包含长序列。这是我们的GPT-2小模型的更好版本( https://huggingface.co/lighteternal/gpt2-finetuned-greek-small )
Metric | Value |
---|---|
Train Loss | 3.67 |
Validation Loss | 3.83 |
Perplexity | 39.12 |
该研究受希腊研究与创新基金(HFRI)在HFRI博士研究生奖学金(奖学金编号:50,第2轮)下的支持。
基于Thomas Dehaene(ML6)的工作: https://blog.ml6.eu/dutch-gpt2-autoregressive-language-modelling-on-a-budget-cff3942dd020