数据集:

msr_zhen_translation_parity

任务:

翻译

语言:

计算机处理:

monolingual translation

大小:

1K<n<10K

语言创建人:

expert-generated machine-generated

批注创建人:

no-annotation

源数据集:

extended|other-newstest2017

许可:

ms-pl

数据集介绍文件清单

英文

msr_zhen_translation_parity 数据集卡片

Translator Human Parity Data

存储库:
论文:

Achieving Human Parity on Automatic Chinese to English News Translation

排行榜:
联系人:

数据集摘要

人类评估结果和翻译结果，用于翻译师人性数据发布，如 https://blogs.microsoft.com/ai/machine-translation-news-test-set-human-parity/ 所述

翻译师人性数据发布包含与我们的论文 "在自动中英新闻翻译上实现人类水平"（发布于2018年3月14日）相关的所有人类评估结果和翻译结果。我们释放了这些数据以便于

外部验证我们已经实现了人类水平的主张

通过为 Reference-WMT 测试集提供两个额外的人类参考进行未来研究。

该数据集包括：

WMT17 中文-英语语言对的两个新参考，一个基于人类从头翻译（Reference-HT），另一个基于人类后期编辑（Reference-PE）；

我们的研究系统 Combo-4、Combo-5 和 Combo-6 生成的人类水平翻译，以及2017年10月16日收集的在线机器翻译服务 Online-A-1710 的翻译输出；

本研究提供的数据包还包括（但未解析和提供为该数据集的可处理特征）在人类评估活动中收集的所有数据点。

支持的任务和榜单

[需要更多信息]

语言

此数据集包含 WMT17 中文-英语语言对的6个额外英语翻译。

数据集结构

数据实例

[需要更多信息]

数据字段

如摘要中所述，此数据集提供了 WMT17 中文-英语语言对的6个额外英语翻译。

数据字段的命名与关联的论文完全相同，以便进行更容易的交叉引用。

参考-HT：人类从头翻译。
参考-PE：人类后期编辑。
Combo-4、Combo-5、Combo-6：研究系统的三种翻译。
Online-A-1710：来自匿名在线机器翻译服务的翻译。

同一条记录的所有数据字段都是相同中文源句的翻译。

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

引用信息可在此链接 Achieving Human Parity on Automatic Chinese to English News Translation 中找到

贡献

感谢 @leoxzhao 添加此数据集。

作者:

佚名

数据集大小:

13.43 KB