英文

opus-mt-en-de

目录

  • 模型详细信息
  • 用途
  • 风险、限制和偏见
  • 训练
  • 评估
  • 引用信息
  • 如何开始使用该模型

模型详细信息

模型描述:

  • 开发者: 赫尔辛基大学语言技术研究小组
  • 模型类型: 翻译
  • 语言:
    • 源语言: 英语
    • 目标语言: 德语
  • 许可证: CC-BY-4.0
  • 获取更多信息的资源:

用途

直接使用

该模型可用于翻译和文本生成。

风险、限制和偏见

内容警告: 读者应意识到本节含有令人不安、冒犯的内容,可能传播历史和现实中的刻板印象。

深入研究已探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。

有关该模型的数据集的更多详细信息,请参阅OPUS自述文件: en-de

训练数据预处理

评估

结果 基准测试
testset BLEU chr-F
newssyscomb2009.en.de 23.5 0.540
news-test2008.en.de 23.5 0.529
newstest2009.en.de 22.3 0.530
newstest2010.en.de 24.9 0.544
newstest2011.en.de 22.5 0.524
newstest2012.en.de 23.0 0.525
newstest2013.en.de 26.9 0.553
newstest2015-ende.en.de 31.1 0.594
newstest2016-ende.en.de 37.0 0.636
newstest2017-ende.en.de 29.9 0.586
newstest2018-ende.en.de 45.2 0.690
newstest2019-ende.en.de 40.9 0.654
Tatoeba.en.de 47.3 0.664

引用信息

@InProceedings{TiedemannThottingal:EAMT2020,
  author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
  title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
  booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
  year = {2020},
  address = {Lisbon, Portugal}
 }

如何开始使用该模型

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-de")

model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-de")