lighteternal/SSE-TUC-mt-en-el-cased | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

lighteternal/SSE-TUC-mt-en-el-cased

任务:

翻译

类库:

PyTorch Transformers

语言:

其他:

fsmt 文生文 AutoTrain Compatible

许可:

apache-2.0

模型介绍文件清单

英文

English to Greek NMT

由Hellenic Army Academy (SSE) 和 Technical University of Crete (TUC)提供

源语言：en
目标语言：el
许可证：apache-2.0
数据集：Opus, CCmatrix
模型：transformer(fairseq)
预处理：标记化+ BPE分词
指标：bleu，chrf

模型描述

使用Fairseq框架训练，transformer_iwslt_de_en架构。BPE分词（20k codes）。混合大小写模型。

如何使用

from transformers import FSMTTokenizer, FSMTForConditionalGeneration

mname = "lighteternal/SSE-TUC-mt-en-el-cased"

tokenizer = FSMTTokenizer.from_pretrained(mname)
model = FSMTForConditionalGeneration.from_pretrained(mname)

text = " 'Katerina', is the best name for a girl."

encoded = tokenizer.encode(text, return_tensors='pt')

outputs = model.generate(encoded, num_beams=5, num_return_sequences=5, early_stopping=True)
for i, output in enumerate(outputs):
    i += 1
    print(f"{i}: {output.tolist()}")
    
    decoded = tokenizer.decode(output, skip_special_tokens=True)
    print(f"{i}: {decoded}")

训练数据

来自Opus和CC-Matrix的整合语料库（总计约6.6GB）

评估结果

在Tatoeba测试集上的结果（EN-EL）：

BLEU	chrF
76.9	0.733

在XNLI平行语料上的结果（EN-EL）：

BLEU	chrF
65.4	0.624

BibTeX条目和引用信息

Dimitris Papadopoulos等人。“通过机器翻译为希腊语启用开放式信息提取。”(2021). 在EACL 2021 SRW中被接受

致谢

该研究工作得到希腊研究与创新基金会（HFRI）的支持，HFRI博士奖学金（奖学金编号：50, 第二轮）

作者:

Dimitris Papadopoulos

数据集大小:

196.6 MB