模型:
lighteternal/SSE-TUC-mt-en-el-cased
使用Fairseq框架训练,transformer_iwslt_de_en架构。BPE分词(20k codes)。混合大小写模型。
from transformers import FSMTTokenizer, FSMTForConditionalGeneration mname = "lighteternal/SSE-TUC-mt-en-el-cased" tokenizer = FSMTTokenizer.from_pretrained(mname) model = FSMTForConditionalGeneration.from_pretrained(mname) text = " 'Katerina', is the best name for a girl." encoded = tokenizer.encode(text, return_tensors='pt') outputs = model.generate(encoded, num_beams=5, num_return_sequences=5, early_stopping=True) for i, output in enumerate(outputs): i += 1 print(f"{i}: {output.tolist()}") decoded = tokenizer.decode(output, skip_special_tokens=True) print(f"{i}: {decoded}")
来自Opus和CC-Matrix的整合语料库(总计约6.6GB)
在Tatoeba测试集上的结果(EN-EL):
BLEU | chrF |
---|---|
76.9 | 0.733 |
在XNLI平行语料上的结果(EN-EL):
BLEU | chrF |
---|---|
65.4 | 0.624 |
Dimitris Papadopoulos等人。“通过机器翻译为希腊语启用开放式信息提取。”(2021). 在EACL 2021 SRW中被接受
该研究工作得到希腊研究与创新基金会(HFRI)的支持,HFRI博士奖学金(奖学金编号:50, 第二轮)