数据集:
wmt20_mlqe_task1
来自主页:此共享任务(WMT20的一部分)将建立在其之前的版本基础上,进一步研究在运行时自动评估神经机器翻译输出质量的方法,而不依赖参考翻译。与以往一样,我们涵盖了各种级别的评估。今年引入的重要元素包括:一个新任务,在任务中对句子进行直接评估(DA)分数注释,而不是基于后编辑的标签;主要来自维基百科文章的新的多语言句子级数据集,可以检索源文章以获取整个文档上下文;可用于探索任务的系统内部信息的NMT模型。
任务1使用维基百科数据进行了6种语言对的翻译,包括高资源的英语-德语(En-De)和英语-中文(En-Zh),中等资源的罗马尼亚语-英语(Ro-En)和爱沙尼亚语-英语(Et-En),以及低资源的僧伽罗语-英语(Si-En)和尼泊尔语-英语(Ne-En),还有一个将维基百科文章和Reddit文章结合起来的数据集,用于俄语-英语(En-Ru)。这些数据集是通过使用使用fairseq工具包构建的最先进的NMT模型翻译从源语言文章中随机抽样的句子并由专业翻译人员使用直接评估(DA)分数进行标注的。每个句子都按照FLORES设置进行注释,该设置提供了一种形式的DA,其中至少有三位专业翻译人员根据感知到的翻译质量对每个句子进行评分,分数范围为0-100。DA分数使用评分者的z分数进行标准化。参与的系统需要根据z标准化的DA分数对句子进行评分。
来自主页:
句子级别的提交将根据与人工DA预测之间的Pearson相关性指标进行评估(即z标准化的平均DA分数,即z_mean)。这些是 official evaluation scripts 评估方法。评估重点是多语言系统,即能够为维基百科领域的所有语言提供预测的系统。因此,将使用跨所有这些语言的平均Pearson相关性来对QE系统进行排名。对于那些对特定语言感兴趣的人,我们还将对每种语言分别评估QE系统。
此数据集包含了8种语言:
一个示例如下:
{ 'segid': 123, 'translation': { 'en': 'José Ortega y Gasset visited Husserl at Freiburg in 1934.', 'de': '1934 besuchte José Ortega y Gasset Husserl in Freiburg.', }, 'scores': [100.0, 100.0, 100.0], 'mean': 100.0, 'z_scores': [0.9553316831588745, 1.552362322807312, 0.850531816482544], 'z_mean': 1.1194086074829102, 'model_score': -0.10244649648666382, 'doc_id': 'Edmund Husserl', 'nmt_output': '1934 besuchte José Ort@@ ega y G@@ asset Hus@@ ser@@ l in Freiburg .', 'word_probas': [-0.4458000063896179, -0.2745000123977661, -0.07199999690055847, -0.002300000051036477, -0.005900000222027302, -0.14579999446868896, -0.07500000298023224, -0.012400000356137753, -0.026900000870227814, -0.036400001496076584, -0.05299999937415123, -0.14990000426769257, -0.012400000356137753, -0.1145000010728836, -0.10999999940395355], }
此数据集有7个配置(每个可用的语言对应一个配置)。每个配置由7K个训练示例,1K个验证示例和1K个测试示例组成。
原始文本来源于维基百科、俄语Reddit和俄语WikiQuote。使用最先进的NMT模型进行翻译,并由专业翻译人员使用直接评估(DA)分数进行注释。
[需要更多信息]
初始数据收集和标准化[需要更多信息]
谁是源语言的生成者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
未知
Not available.
感谢 @VictorSanh 添加了此数据集。