模型:

lighteternal/SSE-TUC-mt-el-en-cased

英文

希腊到英语NMT

由希腊陆军学院(SSE)和克里特理工大学(TUC)提供

  • 源语言:希腊语(el)
  • 目标语言:英语(en)
  • 许可证:apache-2.0
  • 数据集:Opus,CCmatrix
  • 模型:transformer(fairseq)
  • 预处理:标记化+ BPE分词
  • 评估指标:bleu,chrf

模型描述

使用Fairseq框架训练,transformer_iwslt_de_en架构。BPE分词(20k代码)。混合大小写模型。

如何使用

from transformers import FSMTTokenizer, FSMTForConditionalGeneration

mname = "lighteternal/SSE-TUC-mt-el-en-cased"

tokenizer = FSMTTokenizer.from_pretrained(mname)
model = FSMTForConditionalGeneration.from_pretrained(mname)

text = "Ο όρος τεχνητή νοημοσύνη αναφέρεται στον κλάδο της πληροφορικής ο οποίος ασχολείται με τη σχεδίαση και την υλοποίηση υπολογιστικών συστημάτων που μιμούνται στοιχεία της ανθρώπινης συμπεριφοράς ."

encoded = tokenizer.encode(text, return_tensors='pt')

outputs = model.generate(encoded, num_beams=5, num_return_sequences=5, early_stopping=True)
for i, output in enumerate(outputs):
    i += 1
    print(f"{i}: {output.tolist()}")
    
    decoded = tokenizer.decode(output, skip_special_tokens=True)
    print(f"{i}: {decoded}")

训练数据

来自Opus和CC-Matrix的整合语料库(总计约6.6GB)

评估结果

Tatoeba测试集(EL-EN)结果:

BLEU chrF
79.3 0.795

XNLI平行语料(EL-EN)结果:

BLEU chrF
66.2 0.623

BibTeX条目和引用信息

Dimitris Papadopoulos等人。 "PENELOPIE:通过机器翻译实现希腊语信息开放提取。"(2021)。在EACL 2021 SRW上被接受

致谢

该研究工作得到希腊研究和创新基金会(HFRI)在HFRI博士奖学金(奖学金编号:50,第2次申请)下的支持