数据集:
gsarti/wmt_vat
此数据集包括70个用于机器翻译(MT)评估的小型、具有区分性的测试集,称为方差感知测试集(Variance-Aware Test Sets,简称VAT),涵盖了从WMT16到WMT20比赛的35个翻译方向。VAT是通过一种新颖的方差感知过滤方法自动创建的,该方法可以过滤掉当前MT基准中的非区分性测试实例,而无需人工劳动。实验结果表明,在主流语言对和测试集上,VAT在与人类判断相关性方面优于原始的WMT基准。对VAT性质的进一步分析揭示了对于竞争性MT系统而言具有挑战性的语言特征(例如低频词的翻译和专有名词),为构建未来的MT测试集提供了指导。
免责声明:* VAT测试集通过Github由澳门大学的 Natural Language Processing & Portuguese-Chinese Machine Translation Laboratory (NLP2CT Lab) 托管。它们由 Runzhe Zhan , Xuebo Liu , Derek F. Wong , Lidia S. Chao 的论文 Variance-Aware Machine Translation Test Sets 介绍,并遵循WMT测试集的原始许可证。
有关在VAT上进行模型评估的详细信息,请参阅 original paper 。
下表取自原始论文,列出了VAT测试集支持的语言,共70种语言对:
↔️ | wmt16 | wmt17 | wmt18 | wmt19 | wmt20 |
---|---|---|---|---|---|
xx_en | cs , de , fi , ro , ru , tr | cs , de , fi , lv , ru , tr , zh | cs , de , et , fi , ru , tr , zh | de , fi , gu , kk , lt , ru , zh | cs , de , iu , ja , km , pl , ps , ru , ta , zh |
en_xx | ru | cs , de , fi , lv , ru , tr , zh | cs , de , et , fi , ru , tr , zh | cs , de , fi , gu , kk , lt , ru , zh | cs , de , ja , pl , ru , ta , zh |
xx_yy | / | / | / | de_cs , de_fr , fr_de | / |
要使用任何一个测试集,请将"wmtXX_src_tgt"作为配置名称传递给load_dataset命令。例如,要加载来自wmt16的英俄测试集,请使用load_dataset('gsarti/wmt_vat','wmt16_en_ru')。
提供了WMT16英俄语言(wmt16_en_ru配置)的测试拆分(唯一可用拆分)的示例。所有配置具有相同的结构。
{ 'orig_id': 0, 'source': 'The social card of residents of Ivanovo region is to be recognised as an electronic payment instrument.', 'reference': 'Социальная карта жителя Ивановской области признается электронным средством платежа.' }
文本按原始数据集的方式提供,没有进一步的预处理或分词。
取自原始存储库:
Configuration | # Sentences | # Words | # Vocabulary |
---|---|---|---|
wmt20_km_en | 928 | 17170 | 3645 |
wmt20_cs_en | 266 | 12568 | 3502 |
wmt20_en_de | 567 | 21336 | 5945 |
wmt20_ja_en | 397 | 10526 | 3063 |
wmt20_ps_en | 1088 | 20296 | 4303 |
wmt20_en_zh | 567 | 18224 | 5019 |
wmt20_en_ta | 400 | 7809 | 4028 |
wmt20_de_en | 314 | 16083 | 4046 |
wmt20_zh_en | 800 | 35132 | 6457 |
wmt20_en_ja | 400 | 12718 | 2969 |
wmt20_en_cs | 567 | 16579 | 6391 |
wmt20_en_pl | 400 | 8423 | 3834 |
wmt20_en_ru | 801 | 17446 | 6877 |
wmt20_pl_en | 400 | 7394 | 2399 |
wmt20_iu_en | 1188 | 23494 | 3876 |
wmt20_ru_en | 396 | 6966 | 2330 |
wmt20_ta_en | 399 | 7427 | 2148 |
wmt19_zh_en | 800 | 36739 | 6168 |
wmt19_en_cs | 799 | 15433 | 6111 |
wmt19_de_en | 800 | 15219 | 4222 |
wmt19_en_gu | 399 | 8494 | 3548 |
wmt19_fr_de | 680 | 12616 | 3698 |
wmt19_en_zh | 799 | 20230 | 5547 |
wmt19_fi_en | 798 | 13759 | 3555 |
wmt19_en_fi | 799 | 13303 | 6149 |
wmt19_kk_en | 400 | 9283 | 2584 |
wmt19_de_cs | 799 | 15080 | 6166 |
wmt19_lt_en | 400 | 10474 | 2874 |
wmt19_en_lt | 399 | 7251 | 3364 |
wmt19_ru_en | 800 | 14693 | 3817 |
wmt19_en_kk | 399 | 6411 | 3252 |
wmt19_en_ru | 799 | 16393 | 6125 |
wmt19_gu_en | 406 | 8061 | 2434 |
wmt19_de_fr | 680 | 16181 | 3517 |
wmt19_en_de | 799 | 18946 | 5340 |
wmt18_en_cs | 1193 | 19552 | 7926 |
wmt18_cs_en | 1193 | 23439 | 5453 |
wmt18_en_fi | 1200 | 16239 | 7696 |
wmt18_en_tr | 1200 | 19621 | 8613 |
wmt18_en_et | 800 | 13034 | 6001 |
wmt18_ru_en | 1200 | 26747 | 6045 |
wmt18_et_en | 800 | 20045 | 5045 |
wmt18_tr_en | 1200 | 25689 | 5955 |
wmt18_fi_en | 1200 | 24912 | 5834 |
wmt18_zh_en | 1592 | 42983 | 7985 |
wmt18_en_zh | 1592 | 34796 | 8579 |
wmt18_en_ru | 1200 | 22830 | 8679 |
wmt18_de_en | 1199 | 28275 | 6487 |
wmt18_en_de | 1199 | 25473 | 7130 |
wmt17_en_lv | 800 | 14453 | 6161 |
wmt17_zh_en | 800 | 20590 | 5149 |
wmt17_en_tr | 1203 | 17612 | 7714 |
wmt17_lv_en | 800 | 18653 | 4747 |
wmt17_en_de | 1202 | 22055 | 6463 |
wmt17_ru_en | 1200 | 24807 | 5790 |
wmt17_en_fi | 1201 | 17284 | 7763 |
wmt17_tr_en | 1203 | 23037 | 5387 |
wmt17_en_zh | 800 | 18001 | 5629 |
wmt17_en_ru | 1200 | 22251 | 8761 |
wmt17_fi_en | 1201 | 23791 | 5300 |
wmt17_en_cs | 1202 | 21278 | 8256 |
wmt17_de_en | 1202 | 23838 | 5487 |
wmt17_cs_en | 1202 | 22707 | 5310 |
wmt16_tr_en | 1200 | 19225 | 4823 |
wmt16_ru_en | 1199 | 23010 | 5442 |
wmt16_ro_en | 800 | 16200 | 3968 |
wmt16_de_en | 1200 | 22612 | 5511 |
wmt16_en_ru | 1199 | 20233 | 7872 |
wmt16_fi_en | 1200 | 20744 | 5176 |
wmt16_cs_en | 1200 | 23235 | 5324 |
该数据集通过保留各种WMT测试集的前40%实例的子集来创建,其中自动评分(BLEU,BLEURT,COMET,BERTScore)之间的方差最大。有关数据集创建的其他信息,请参阅原始文章 Variance-Aware Machine Translation Test Sets 。
VAT的原始作者是原始数据集的维护者。如需有关此?数据集版本的问题或更新,请联系gabriele.sarti996@gmail.com。
方差感知测试集是基于原始的WMT测试集创建的。因此,WMT组织者已经明确说明的 original data licensing plan 仍然适用:
用于WMT新闻翻译任务的数据可以在研究目的上自由使用,我们只要求您引用WMT共享任务概述论文,并遵守各个数据集上的任何其他引用要求。对于数据的其他使用,您应该与数据集的原始所有者咨询。
如果您在工作中使用这些语料库,请引用作者。同时建议引用用于特定测试集的原始WMT共享任务论文。
@inproceedings{ zhan2021varianceaware, title={Variance-Aware Machine Translation Test Sets}, author={Runzhe Zhan and Xuebo Liu and Derek F. Wong and Lidia S. Chao}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems, Datasets and Benchmarks Track}, year={2021}, url={https://openreview.net/forum?id=hhKA5k0oVy5} }