数据集:

msr_zhen_translation_parity

英文

msr_zhen_translation_parity 数据集卡片

Translator Human Parity Data

  • 存储库:
  • 论文:

Achieving Human Parity on Automatic Chinese to English News Translation

  • 排行榜:
  • 联系人:

数据集摘要

人类评估结果和翻译结果,用于翻译师人性数据发布,如 https://blogs.microsoft.com/ai/machine-translation-news-test-set-human-parity/ 所述

翻译师人性数据发布包含与我们的论文 "在自动中英新闻翻译上实现人类水平"(发布于2018年3月14日)相关的所有人类评估结果和翻译结果。我们释放了这些数据以便于

  • 外部验证我们已经实现了人类水平的主张
  • 通过为 Reference-WMT 测试集提供两个额外的人类参考进行未来研究。
  • 该数据集包括:

  • WMT17 中文-英语语言对的两个新参考,一个基于人类从头翻译(Reference-HT),另一个基于人类后期编辑(Reference-PE);

  • 我们的研究系统 Combo-4、Combo-5 和 Combo-6 生成的人类水平翻译,以及2017年10月16日收集的在线机器翻译服务 Online-A-1710 的翻译输出;

  • 本研究提供的数据包还包括(但未解析和提供为该数据集的可处理特征)在人类评估活动中收集的所有数据点。

    支持的任务和榜单

    [需要更多信息]

    语言

    此数据集包含 WMT17 中文-英语语言对的6个额外英语翻译。

    数据集结构

    数据实例

    [需要更多信息]

    数据字段

    如摘要中所述,此数据集提供了 WMT17 中文-英语语言对的6个额外英语翻译。

    数据字段的命名与关联的论文完全相同,以便进行更容易的交叉引用。

    • 参考-HT:人类从头翻译。
    • 参考-PE:人类后期编辑。
    • Combo-4、Combo-5、Combo-6:研究系统的三种翻译。
    • Online-A-1710:来自匿名在线机器翻译服务的翻译。

    同一条记录的所有数据字段都是相同中文源句的翻译。

    数据拆分

    [需要更多信息]

    数据集创建

    策划理由

    [需要更多信息]

    源数据

    初始数据收集和规范化

    [需要更多信息]

    谁是源语言的生产者?

    [需要更多信息]

    注释

    注释过程

    [需要更多信息]

    注释者是谁?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据的社会影响

    [需要更多信息]

    偏见的讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集策划者

    [需要更多信息]

    许可信息

    [需要更多信息]

    引用信息

    引用信息可在此链接 Achieving Human Parity on Automatic Chinese to English News Translation 中找到

    贡献

    感谢 @leoxzhao 添加此数据集。