模型描述:
该模型可用于翻译和文本生成。
内容警告: 读者应意识到本节含有令人不安、冒犯的内容,可能传播历史和现实中的刻板印象。
深入研究已探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。
有关该模型的数据集的更多详细信息,请参阅OPUS自述文件: en-de
训练数据预处理预处理: 归一化 + SentencePiece
数据集: opus
下载原始权重: opus-2020-02-26.zip
测试集翻译: opus-2020-02-26.test.txt
testset | BLEU | chr-F |
---|---|---|
newssyscomb2009.en.de | 23.5 | 0.540 |
news-test2008.en.de | 23.5 | 0.529 |
newstest2009.en.de | 22.3 | 0.530 |
newstest2010.en.de | 24.9 | 0.544 |
newstest2011.en.de | 22.5 | 0.524 |
newstest2012.en.de | 23.0 | 0.525 |
newstest2013.en.de | 26.9 | 0.553 |
newstest2015-ende.en.de | 31.1 | 0.594 |
newstest2016-ende.en.de | 37.0 | 0.636 |
newstest2017-ende.en.de | 29.9 | 0.586 |
newstest2018-ende.en.de | 45.2 | 0.690 |
newstest2019-ende.en.de | 40.9 | 0.654 |
Tatoeba.en.de | 47.3 | 0.664 |
@InProceedings{TiedemannThottingal:EAMT2020, author = {J{\"o}rg Tiedemann and Santhosh Thottingal}, title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld}, booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)}, year = {2020}, address = {Lisbon, Portugal} }
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-de") model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-de")