模型:
lighteternal/gpt2-finetuned-greek
这是一个基于Huggingface transformers和fastai的文本生成(自回归)模型,基于英文GPT-2。通过渐进式层解冻进行微调。与从头开始训练相比,这是一种更高效、更可持续的替代方案,特别适用于资源匮乏的语言。基于Thomas Dehaene(ML6)用于创建Dutch GPT2的工作: https://colab.research.google.com/drive/1Y31tjMkB8TqKKFlZ5OJ9fcMp3p8suvs4?usp=sharing
from transformers import pipeline
model = "lighteternal/gpt2-finetuned-greek"
generator = pipeline(
'text-generation',
device=0,
model=f'{model}',
tokenizer=f'{model}')
text = "Μια φορά κι έναν καιρό"
print("\
".join([x.get("generated_text") for x in generator(
text,
max_length=len(text.split(" "))+15,
do_sample=True,
top_k=50,
repetition_penalty = 1.2,
add_special_tokens=False,
num_return_sequences=5,
temperature=0.95,
top_p=0.95)]))
我们使用了来自CC100、Wikimatrix、Tatoeba、Books、SETIMES和GlobalVoices等希腊语语料库的23.4GB样本,其中包含长序列。这是我们的GPT-2小模型的更好版本( https://huggingface.co/lighteternal/gpt2-finetuned-greek-small )
Metric | Value |
---|---|
Train Loss | 3.67 |
Validation Loss | 3.83 |
Perplexity | 39.12 |
该研究受希腊研究与创新基金(HFRI)在HFRI博士研究生奖学金(奖学金编号:50,第2轮)下的支持。
基于Thomas Dehaene(ML6)的工作: https://blog.ml6.eu/dutch-gpt2-autoregressive-language-modelling-on-a-budget-cff3942dd020