数据集:

wmt20_mlqe_task1

英文

WMT20 - 多语言质量评估 (MLQE) 任务1的数据集卡片

数据集摘要

来自主页:此共享任务(WMT20的一部分)将建立在其之前的版本基础上,进一步研究在运行时自动评估神经机器翻译输出质量的方法,而不依赖参考翻译。与以往一样,我们涵盖了各种级别的评估。今年引入的重要元素包括:一个新任务,在任务中对句子进行直接评估(DA)分数注释,而不是基于后编辑的标签;主要来自维基百科文章的新的多语言句子级数据集,可以检索源文章以获取整个文档上下文;可用于探索任务的系统内部信息的NMT模型。

任务1使用维基百科数据进行了6种语言对的翻译,包括高资源的英语-德语(En-De)和英语-中文(En-Zh),中等资源的罗马尼亚语-英语(Ro-En)和爱沙尼亚语-英语(Et-En),以及低资源的僧伽罗语-英语(Si-En)和尼泊尔语-英语(Ne-En),还有一个将维基百科文章和Reddit文章结合起来的数据集,用于俄语-英语(En-Ru)。这些数据集是通过使用使用fairseq工具包构建的最先进的NMT模型翻译从源语言文章中随机抽样的句子并由专业翻译人员使用直接评估(DA)分数进行标注的。每个句子都按照FLORES设置进行注释,该设置提供了一种形式的DA,其中至少有三位专业翻译人员根据感知到的翻译质量对每个句子进行评分,分数范围为0-100。DA分数使用评分者的z分数进行标准化。参与的系统需要根据z标准化的DA分数对句子进行评分。

支持的任务和排行榜

来自主页:

句子级别的提交将根据与人工DA预测之间的Pearson相关性指标进行评估(即z标准化的平均DA分数,即z_mean)。这些是 official evaluation scripts 评估方法。评估重点是多语言系统,即能够为维基百科领域的所有语言提供预测的系统。因此,将使用跨所有这些语言的平均Pearson相关性来对QE系统进行排名。对于那些对特定语言感兴趣的人,我们还将对每种语言分别评估QE系统。

语言

此数据集包含了8种语言:

  • 英语 (en)
  • 德语 (de)
  • 罗马尼亚语 (ro)
  • 爱沙尼亚语 (et)
  • 尼泊尔语 (ne)
  • 僧伽罗语 (si)
  • 俄语 (ru)

数据集结构

数据实例

一个示例如下:

{
  'segid': 123,
  'translation': {
    'en': 'José Ortega y Gasset visited Husserl at Freiburg in 1934.',
    'de': '1934 besuchte José Ortega y Gasset Husserl in Freiburg.',
  },
  'scores': [100.0, 100.0, 100.0],
  'mean': 100.0,
  'z_scores': [0.9553316831588745, 1.552362322807312, 0.850531816482544],
  'z_mean': 1.1194086074829102,
  'model_score': -0.10244649648666382,
  'doc_id': 'Edmund Husserl',
  'nmt_output': '1934 besuchte José Ort@@ ega y G@@ asset Hus@@ ser@@ l in Freiburg .',
  'word_probas': [-0.4458000063896179, -0.2745000123977661, -0.07199999690055847, -0.002300000051036477, -0.005900000222027302, -0.14579999446868896, -0.07500000298023224, -0.012400000356137753, -0.026900000870227814, -0.036400001496076584, -0.05299999937415123, -0.14990000426769257, -0.012400000356137753, -0.1145000010728836, -0.10999999940395355],
}

数据字段

  • segid: 段落id。
  • original: 原始句子。
  • translation: 包含(源语言,目标语言)对的字典。
    • src_lg: 源语言中的文本序列。
    • tgt_lg: 目标语言中的文本序列。
  • scores: 所有注释者的DA分数列表 - 注释者的数量可能不同。如果不适用,则为[](仅适用于ru-en/test)。
  • mean: DA分数的平均值。如果不适用,则为-10000(仅适用于ru-en/test)。
  • z_scores: z标准化的DA分数列表。如果不适用,则为[](仅适用于ru-en/test)。
  • z_mean: z标准化的DA分数的平均值。如果不适用,则为-10000(仅适用于ru-en/test)。
  • model_score: 句子的NMT模型分数。如果不适用,则为-10000(仅适用于ru-en/test)。
  • doc_id: 每个原始段落来自的文章名称。
  • nmt_output: 在任何后处理之前,NMT模型的实际输出,对应于word_probas中的对数概率(没有打印出令牌,因此对数概率的数量等于标记的数量加1)。
  • word_probas: NMT模型为每个解码标记(包括标记)提供的对数概率。

数据集划分

此数据集有7个配置(每个可用的语言对应一个配置)。每个配置由7K个训练示例,1K个验证示例和1K个测试示例组成。

数据集创建

策划理由

原始文本来源于维基百科、俄语Reddit和俄语WikiQuote。使用最先进的NMT模型进行翻译,并由专业翻译人员使用直接评估(DA)分数进行注释。

源数据

[需要更多信息]

初始数据收集和标准化

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据集的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

未知

引用信息

Not available.

贡献者

感谢 @VictorSanh 添加了此数据集。