模型:
lighteternal/SSE-TUC-mt-en-el-cased
使用Fairseq框架训练,transformer_iwslt_de_en架构。BPE分词(20k codes)。混合大小写模型。
from transformers import FSMTTokenizer, FSMTForConditionalGeneration
mname = "lighteternal/SSE-TUC-mt-en-el-cased"
tokenizer = FSMTTokenizer.from_pretrained(mname)
model = FSMTForConditionalGeneration.from_pretrained(mname)
text = " 'Katerina', is the best name for a girl."
encoded = tokenizer.encode(text, return_tensors='pt')
outputs = model.generate(encoded, num_beams=5, num_return_sequences=5, early_stopping=True)
for i, output in enumerate(outputs):
i += 1
print(f"{i}: {output.tolist()}")
decoded = tokenizer.decode(output, skip_special_tokens=True)
print(f"{i}: {decoded}")
来自Opus和CC-Matrix的整合语料库(总计约6.6GB)
在Tatoeba测试集上的结果(EN-EL):
| BLEU | chrF |
|---|---|
| 76.9 | 0.733 |
在XNLI平行语料上的结果(EN-EL):
| BLEU | chrF |
|---|---|
| 65.4 | 0.624 |
Dimitris Papadopoulos等人。“通过机器翻译为希腊语启用开放式信息提取。”(2021). 在EACL 2021 SRW中被接受
该研究工作得到希腊研究与创新基金会(HFRI)的支持,HFRI博士奖学金(奖学金编号:50, 第二轮)