Helsinki-NLP/opus-mt-en-de | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

Helsinki-NLP/opus-mt-en-de

任务:

翻译

类库:

PyTorch TensorFlow JAX Rust Transformers

语言:

其他:

marian 文生文 AutoTrain Compatible

许可:

cc-by-4.0

模型介绍文件清单

英文

opus-mt-en-de

模型详细信息

模型描述:

开发者: 赫尔辛基大学语言技术研究小组
模型类型: 翻译
语言:
- 源语言: 英语
- 目标语言: 德语
许可证: CC-BY-4.0
获取更多信息的资源:
- GitHub Repo

用途

直接使用

该模型可用于翻译和文本生成。

风险、限制和偏见

内容警告: 读者应意识到本节含有令人不安、冒犯的内容，可能传播历史和现实中的刻板印象。

深入研究已探讨了语言模型的偏见和公平性问题（参见，例如， Sheng et al. (2021) 和 Bender et al. (2021) ）。

有关该模型的数据集的更多详细信息，请参阅OPUS自述文件： en-de

训练数据预处理

预处理: 归一化 + SentencePiece
数据集: opus
下载原始权重: opus-2020-02-26.zip
测试集翻译: opus-2020-02-26.test.txt

评估

结果

测试集分数: opus-2020-02-26.eval.txt

基准测试

testset	BLEU	chr-F
newssyscomb2009.en.de	23.5	0.540
news-test2008.en.de	23.5	0.529
newstest2009.en.de	22.3	0.530
newstest2010.en.de	24.9	0.544
newstest2011.en.de	22.5	0.524
newstest2012.en.de	23.0	0.525
newstest2013.en.de	26.9	0.553
newstest2015-ende.en.de	31.1	0.594
newstest2016-ende.en.de	37.0	0.636
newstest2017-ende.en.de	29.9	0.586
newstest2018-ende.en.de	45.2	0.690
newstest2019-ende.en.de	40.9	0.654
Tatoeba.en.de	47.3	0.664

引用信息

@InProceedings{TiedemannThottingal:EAMT2020,
  author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
  title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
  booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
  year = {2020},
  address = {Lisbon, Portugal}
 }

如何开始使用该模型

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-de")

model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-de")

作者:

Language Technology Research Group at the University of Helsinki

数据集大小:

1.33 GB

opus-mt-en-de

目录

模型详细信息

用途

风险、限制和偏见

评估

引用信息

如何开始使用该模型