模型:
lighteternal/SSE-TUC-mt-el-en-cased
使用Fairseq框架训练,transformer_iwslt_de_en架构。BPE分词(20k代码)。混合大小写模型。
from transformers import FSMTTokenizer, FSMTForConditionalGeneration mname = "lighteternal/SSE-TUC-mt-el-en-cased" tokenizer = FSMTTokenizer.from_pretrained(mname) model = FSMTForConditionalGeneration.from_pretrained(mname) text = "Ο όρος τεχνητή νοημοσύνη αναφέρεται στον κλάδο της πληροφορικής ο οποίος ασχολείται με τη σχεδίαση και την υλοποίηση υπολογιστικών συστημάτων που μιμούνται στοιχεία της ανθρώπινης συμπεριφοράς ." encoded = tokenizer.encode(text, return_tensors='pt') outputs = model.generate(encoded, num_beams=5, num_return_sequences=5, early_stopping=True) for i, output in enumerate(outputs): i += 1 print(f"{i}: {output.tolist()}") decoded = tokenizer.decode(output, skip_special_tokens=True) print(f"{i}: {decoded}")
来自Opus和CC-Matrix的整合语料库(总计约6.6GB)
Tatoeba测试集(EL-EN)结果:
BLEU | chrF |
---|---|
79.3 | 0.795 |
XNLI平行语料(EL-EN)结果:
BLEU | chrF |
---|---|
66.2 | 0.623 |
Dimitris Papadopoulos等人。 "PENELOPIE:通过机器翻译实现希腊语信息开放提取。"(2021)。在EACL 2021 SRW上被接受
该研究工作得到希腊研究和创新基金会(HFRI)在HFRI博士奖学金(奖学金编号:50,第2次申请)下的支持