英文

Variance-Aware MT测试集的数据集卡片

数据集概述

此数据集包括70个用于机器翻译(MT)评估的小型、具有区分性的测试集,称为方差感知测试集(Variance-Aware Test Sets,简称VAT),涵盖了从WMT16到WMT20比赛的35个翻译方向。VAT是通过一种新颖的方差感知过滤方法自动创建的,该方法可以过滤掉当前MT基准中的非区分性测试实例,而无需人工劳动。实验结果表明,在主流语言对和测试集上,VAT在与人类判断相关性方面优于原始的WMT基准。对VAT性质的进一步分析揭示了对于竞争性MT系统而言具有挑战性的语言特征(例如低频词的翻译和专有名词),为构建未来的MT测试集提供了指导。

免责声明:* VAT测试集通过Github由澳门大学的 Natural Language Processing & Portuguese-Chinese Machine Translation Laboratory (NLP2CT Lab) 托管。它们由 Runzhe Zhan Xuebo Liu Derek F. Wong Lidia S. Chao 的论文 Variance-Aware Machine Translation Test Sets 介绍,并遵循WMT测试集的原始许可证。

支持的任务和排行榜

机器翻译

有关在VAT上进行模型评估的详细信息,请参阅 original paper

语言

下表取自原始论文,列出了VAT测试集支持的语言,共70种语言对:

↔️ wmt16 wmt17 wmt18 wmt19 wmt20
xx_en cs , de , fi , ro , ru , tr cs , de , fi , lv , ru , tr , zh cs , de , et , fi , ru , tr , zh de , fi , gu , kk , lt , ru , zh cs , de , iu , ja , km , pl , ps , ru , ta , zh
en_xx ru cs , de , fi , lv , ru , tr , zh cs , de , et , fi , ru , tr , zh cs , de , fi , gu , kk , lt , ru , zh cs , de , ja , pl , ru , ta , zh
xx_yy / / / de_cs , de_fr , fr_de /

要使用任何一个测试集,请将"wmtXX_src_tgt"作为配置名称传递给load_dataset命令。例如,要加载来自wmt16的英俄测试集,请使用load_dataset('gsarti/wmt_vat','wmt16_en_ru')。

数据集结构

数据实例

提供了WMT16英俄语言(wmt16_en_ru配置)的测试拆分(唯一可用拆分)的示例。所有配置具有相同的结构。

{
    'orig_id': 0,
    'source': 'The social card of residents of Ivanovo region is to be recognised as an electronic payment instrument.',
    'reference': 'Социальная карта жителя Ивановской области признается электронным средством платежа.'
}

文本按原始数据集的方式提供,没有进一步的预处理或分词。

数据字段

  • orig_id:与原始数据集中行id相对应的ID。
  • source:源语句。
  • reference:目标语言中的参考句子。

数据拆分

取自原始存储库:

Configuration # Sentences # Words # Vocabulary
wmt20_km_en 928 17170 3645
wmt20_cs_en 266 12568 3502
wmt20_en_de 567 21336 5945
wmt20_ja_en 397 10526 3063
wmt20_ps_en 1088 20296 4303
wmt20_en_zh 567 18224 5019
wmt20_en_ta 400 7809 4028
wmt20_de_en 314 16083 4046
wmt20_zh_en 800 35132 6457
wmt20_en_ja 400 12718 2969
wmt20_en_cs 567 16579 6391
wmt20_en_pl 400 8423 3834
wmt20_en_ru 801 17446 6877
wmt20_pl_en 400 7394 2399
wmt20_iu_en 1188 23494 3876
wmt20_ru_en 396 6966 2330
wmt20_ta_en 399 7427 2148
wmt19_zh_en 800 36739 6168
wmt19_en_cs 799 15433 6111
wmt19_de_en 800 15219 4222
wmt19_en_gu 399 8494 3548
wmt19_fr_de 680 12616 3698
wmt19_en_zh 799 20230 5547
wmt19_fi_en 798 13759 3555
wmt19_en_fi 799 13303 6149
wmt19_kk_en 400 9283 2584
wmt19_de_cs 799 15080 6166
wmt19_lt_en 400 10474 2874
wmt19_en_lt 399 7251 3364
wmt19_ru_en 800 14693 3817
wmt19_en_kk 399 6411 3252
wmt19_en_ru 799 16393 6125
wmt19_gu_en 406 8061 2434
wmt19_de_fr 680 16181 3517
wmt19_en_de 799 18946 5340
wmt18_en_cs 1193 19552 7926
wmt18_cs_en 1193 23439 5453
wmt18_en_fi 1200 16239 7696
wmt18_en_tr 1200 19621 8613
wmt18_en_et 800 13034 6001
wmt18_ru_en 1200 26747 6045
wmt18_et_en 800 20045 5045
wmt18_tr_en 1200 25689 5955
wmt18_fi_en 1200 24912 5834
wmt18_zh_en 1592 42983 7985
wmt18_en_zh 1592 34796 8579
wmt18_en_ru 1200 22830 8679
wmt18_de_en 1199 28275 6487
wmt18_en_de 1199 25473 7130
wmt17_en_lv 800 14453 6161
wmt17_zh_en 800 20590 5149
wmt17_en_tr 1203 17612 7714
wmt17_lv_en 800 18653 4747
wmt17_en_de 1202 22055 6463
wmt17_ru_en 1200 24807 5790
wmt17_en_fi 1201 17284 7763
wmt17_tr_en 1203 23037 5387
wmt17_en_zh 800 18001 5629
wmt17_en_ru 1200 22251 8761
wmt17_fi_en 1201 23791 5300
wmt17_en_cs 1202 21278 8256
wmt17_de_en 1202 23838 5487
wmt17_cs_en 1202 22707 5310
wmt16_tr_en 1200 19225 4823
wmt16_ru_en 1199 23010 5442
wmt16_ro_en 800 16200 3968
wmt16_de_en 1200 22612 5511
wmt16_en_ru 1199 20233 7872
wmt16_fi_en 1200 20744 5176
wmt16_cs_en 1200 23235 5324

数据集创建

该数据集通过保留各种WMT测试集的前40%实例的子集来创建,其中自动评分(BLEU,BLEURT,COMET,BERTScore)之间的方差最大。有关数据集创建的其他信息,请参阅原始文章 Variance-Aware Machine Translation Test Sets

其他信息

数据集维护者

VAT的原始作者是原始数据集的维护者。如需有关此?数据集版本的问题或更新,请联系gabriele.sarti996@gmail.com。

Licensing Information

方差感知测试集是基于原始的WMT测试集创建的。因此,WMT组织者已经明确说明的 original data licensing plan 仍然适用:

用于WMT新闻翻译任务的数据可以在研究目的上自由使用,我们只要求您引用WMT共享任务概述论文,并遵守各个数据集上的任何其他引用要求。对于数据的其他使用,您应该与数据集的原始所有者咨询。

引用信息

如果您在工作中使用这些语料库,请引用作者。同时建议引用用于特定测试集的原始WMT共享任务论文。

@inproceedings{
    zhan2021varianceaware,
    title={Variance-Aware Machine Translation Test Sets},
    author={Runzhe Zhan and Xuebo Liu and Derek F. Wong and Lidia S. Chao},
    booktitle={Thirty-fifth Conference on Neural Information Processing Systems, Datasets and Benchmarks Track},
    year={2021},
    url={https://openreview.net/forum?id=hhKA5k0oVy5}
}