模型:

facebook/mbart-large-50-one-to-many-mmt

英文

mBART-50多对一多语言机器翻译

这个模型是 mBART-large-50 的微调检查点。mbart-large-50-one-to-many-mmt 是用于多语言机器翻译的微调模型。它在 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning 论文中被介绍。

该模型可以将英语翻译成下面提到的其他49种语言。为了将文本翻译为目标语言,目标语言ID被强制作为生成的第一个标记。为了强制目标语言ID作为生成的第一个标记,请将 forced_bos_token_id 参数传递给 generate 方法。

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
article_en = "The head of the United Nations says there is no military solution in Syria"
model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-one-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-one-to-many-mmt", src_lang="en_XX")

model_inputs = tokenizer(article_en, return_tensors="pt")

# translate from English to Hindi
generated_tokens = model.generate(
    **model_inputs,
    forced_bos_token_id=tokenizer.lang_code_to_id["hi_IN"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => 'संयुक्त राष्ट्र के नेता कहते हैं कि सीरिया में कोई सैन्य समाधान नहीं है'

# translate from English to Chinese
generated_tokens = model.generate(
    **model_inputs,
    forced_bos_token_id=tokenizer.lang_code_to_id["zh_CN"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => '联合国首脑说,叙利亚没有军事解决办法'

参见 model hub 以查找更多的微调版本。

覆盖的语言

阿拉伯语 (ar_AR), 捷克语 (cs_CZ), 德语 (de_DE), 英语 (en_XX), 西班牙语 (es_XX), 爱沙尼亚语 (et_EE), 芬兰语 (fi_FI), 法语 (fr_XX), 古吉拉特语 (gu_IN), 印地语 (hi_IN), 意大利语 (it_IT), 日语 (ja_XX), 哈萨克语 (kk_KZ), 韩语 (ko_KR), 立陶宛语 (lt_LT), 拉脱维亚语 (lv_LV), 缅甸语 (my_MM), 尼泊尔语 (ne_NP), 荷兰语 (nl_XX), 罗马尼亚语 (ro_RO), 俄语 (ru_RU), 僧伽罗语 (si_LK), 土耳其语 (tr_TR), 越南语 (vi_VN), 中文 (zh_CN), 南非荷兰语 (af_ZA), 阿塞拜疆语 (az_AZ), 孟加拉语 (bn_IN), 波斯语 (fa_IR), 希伯来语 (he_IL), 克罗地亚语 (hr_HR), 印度尼西亚语 (id_ID), 格鲁吉亚语 (ka_GE), 高棉语 (km_KH), 马其顿语 (mk_MK), 马拉雅拉姆语 (ml_IN), 蒙古语 (mn_MN), 马拉地语 (mr_IN), 波兰语 (pl_PL), 普什图语 (ps_AF), 葡萄牙语 (pt_XX), 瑞典语 (sv_SE), 斯瓦希里语 (sw_KE), 泰米尔语 (ta_IN), 泰卢固语 (te_IN), 泰语 (th_TH), 塔加洛语 (tl_XX), 乌克兰语 (uk_UA), 乌尔都语 (ur_PK), 科萨语 (xh_ZA), 加利西亚语 (gl_ES), 斯洛文尼亚语 (sl_SI)

BibTeX条目和引用信息

@article{tang2020multilingual,
    title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
    author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
    year={2020},
    eprint={2008.00401},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}