模型:

lighteternal/SSE-TUC-mt-en-el-cased

英文

English to Greek NMT

由Hellenic Army Academy (SSE) 和 Technical University of Crete (TUC)提供

  • 源语言:en
  • 目标语言:el
  • 许可证:apache-2.0
  • 数据集:Opus, CCmatrix
  • 模型:transformer(fairseq)
  • 预处理:标记化+ BPE分词
  • 指标:bleu,chrf

模型描述

使用Fairseq框架训练,transformer_iwslt_de_en架构。BPE分词(20k codes)。混合大小写模型。

如何使用

from transformers import FSMTTokenizer, FSMTForConditionalGeneration

mname = "lighteternal/SSE-TUC-mt-en-el-cased"

tokenizer = FSMTTokenizer.from_pretrained(mname)
model = FSMTForConditionalGeneration.from_pretrained(mname)

text = " 'Katerina', is the best name for a girl."

encoded = tokenizer.encode(text, return_tensors='pt')

outputs = model.generate(encoded, num_beams=5, num_return_sequences=5, early_stopping=True)
for i, output in enumerate(outputs):
    i += 1
    print(f"{i}: {output.tolist()}")
    
    decoded = tokenizer.decode(output, skip_special_tokens=True)
    print(f"{i}: {decoded}")

训练数据

来自Opus和CC-Matrix的整合语料库(总计约6.6GB)

评估结果

在Tatoeba测试集上的结果(EN-EL):

BLEU chrF
76.9 0.733

在XNLI平行语料上的结果(EN-EL):

BLEU chrF
65.4 0.624

BibTeX条目和引用信息

Dimitris Papadopoulos等人。“通过机器翻译为希腊语启用开放式信息提取。”(2021). 在EACL 2021 SRW中被接受

致谢

该研究工作得到希腊研究与创新基金会(HFRI)的支持,HFRI博士奖学金(奖学金编号:50, 第二轮)