数据集:
nikitam/ACES
ACES包含36,476个示例,涵盖146种语言对,代表了68种现象的挑战,用于评估机器翻译指标。我们关注翻译准确性错误,并根据多维度质量指标(MQM)本体论来涵盖挑战集中的现象。这些现象从单词/字符级别的简单扰动到基于言语和实际知识的更复杂的错误都有涵盖。
- 机器翻译指标评估
- 可能对比机器翻译评估有用
该数据集涵盖了146种语言对,如下所示:
af-en, af-fa, ar-en, ar-fr, ar-hi, be-en, bg-en, bg-lt, ca-en, ca-es, cs-en, da-en, de-en, de-es, de-fr, de-ja, de-ko, de-ru, de-zh, el-en, en-af, en-ar, en-be, en-bg, en-ca, en-cs, en-da, en-de, en-el, en-es, en-et, en-fa, en-fi, en-fr, en-gl, en-he, en-hi, en-hr, en-hu, en-hy, en-id, en-it, en-ja, en-ko, en-lt, en-lv, en-mr, en-nl, en-no, en-pl, en-pt, en-ro, en-ru, en-sk, en-sl, en-sr, en-sv, en-ta, en-tr, en-uk, en-ur, en-vi, en-zh, es-ca, es-de, es-en, es-fr, es-ja, es-ko, es-zh, et-en, fa-af, fa-en, fi-en, fr-de, fr-en, fr-es, fr-ja, fr-ko, fr-mr, fr-ru, fr-zh, ga-en, gl-en, he-en, he-sv, hi-ar, hi-en, hr-en, hr-lv, hu-en, hy-en, hy-vi, id-en, it-en, ja-de, ja-en, ja-es, ja-fr, ja-ko, ja-zh, ko-de, ko-en, ko-es, ko-fr, ko-ja, ko-zh, lt-bg, lt-en, lv-en, lv-hr, mr-en, nl-en, no-en, pl-en, pl-mr, pl-sk, pt-en, pt-sr, ro-en, ru-de, ru-en, ru-es, ru-fr, sk-en, sk-pl, sl-en, sr-en, sr-pt, sv-en, sv-he, sw-en, ta-en, th-en, tr-en, uk-en, ur-en, vi-en, vi-hy, wo-en, zh-de, zh-en, zh-es, zh-fr, zh-ja, zh-ko。
每个数据实例包含以下特征:source(源文本)、good-translation(可能的翻译)、incorrect-translation(包含错误或感兴趣现象的翻译)、reference(标准翻译)、phenomena(示例中正在研究的错误或现象类型)、langpair(示例的源语言和目标语言对)。
查看 ACES corpus viewer 以获取更多示例。
ACES挑战集中的一个示例如下:
{'source': "Proper nutritional practices alone cannot generate elite performances, but they can significantly affect athletes' overall wellness.", 'good-translation': 'Las prácticas nutricionales adecuadas por sí solas no pueden generar rendimiento de élite, pero pueden afectar significativamente el bienestar general de los atletas.', 'incorrect-translation': 'Las prácticas nutricionales adecuadas por sí solas no pueden generar rendimiento de élite, pero pueden afectar significativamente el bienestar general de los jóvenes atletas.', 'reference': 'No es posible que las prácticas nutricionales adecuadas, por sí solas, generen un rendimiento de elite, pero puede influir en gran medida el bienestar general de los atletas .', 'phenomena': 'addition', 'langpair': 'en-es'}
注意,“good-translation”可能不是没有错误的,但它是比“incorrect-translation”更好的翻译。
ACES数据集有一个分割:train,其中包含挑战集。共有36476个例子。
随着神经网络,特别是基于Transformer的架构的出现,机器翻译的输出变得越来越流利。相比准确性错误,流畅性错误在人类评估者中也被认为不那么严重 \citep{freitag-etal-2021-experts},这反映了准确性错误在某些情境下可能产生的危险后果,例如在医学和法律领域。基于这些原因,我们决定构建一个以准确性错误为重点的挑战集。
我们关注的另一个方面是在ACES中包含广泛的语言对。只要可能,当我们使用自动化方法时,我们会为所有源数据集覆盖的语言对创建示例。对于我们手动创建示例的现象,我们还试图涵盖至少两种语言对,但当然受限于作者所说的语言。
我们旨在提供涵盖简单和困难现象的挑战集合。尽管不断测试更难的示例以检查机器翻译评估指标仍然存在哪些问题可能是有趣的,但我们认为轻松的挑战集同样重要,以确保指标在识别以前被认为是“解决”的错误类型时不会突然变差。因此,我们在创建ACES时采取 holistic的视角,不筛选单个示例或基于基准指标性能或其他因素来排除挑战集。
请参阅论文的第4和第5部分。
谁是源语言的生产者?该数据集包含在FLORES-101、FLORES-200、PAWS-X、XNLI、XTREME、WinoMT、Wino-X、MuCOW、EuroParl ConDisco、ParcorFull数据集中的句子。有关详细信息,请参阅相关论文。
外部数据集可能包含敏感信息。有关详细信息,请参阅相关数据集。
ACES主要用于评估机器翻译指标的准确性错误。我们期望指标对“good-translation”得分始终高于“incorrect-translation”。我们报告基于 Kendall-tau 相关性的指标性能。它衡量了指标将“good-translation”得分高于“incorrect-translation”的次数(一致),以及等于或低于“incorrect-translation”的次数(不一致)。
挑战集中的一些示例存在偏见,然而这是为了揭示现有指标的局限性。
ACES挑战集中存在一些偏见。首先,对于en-de和en-fr语言对,涵盖的现象范围和示例数量更多。这部分是因为手动构建一些现象的示例需要较大的工作量,特别是属于言语级别和实际知识类别的示例。此外,我们选择的语言对也仅限于XLM-R中提供的语言。其次,与需要手动构建/筛选的现象相比,ACES包含更多通过自动方法生成的示例。第三,一些自动生成的示例需要仅适用于少数几种语言的外部库(例如Multilingual Wordnet)。第四,挑战集的重点是准确性错误。我们将留待未来工作开发关于流畅性错误的挑战集。
由于使用现有数据集作为许多示例的基础,这些数据集中存在的错误可能会传播到ACES中。虽然我们承认这是不可取的,但在构建不正确的翻译时,我们的目标是确保不正确的翻译的质量始终低于相应的好翻译。
论文中呈现的结果和分析排除了仅提供系统级输出的WMT 2022指标共享任务提交的指标。我们专注于提供以句段级输出的指标的性能在不同现象类别上的广泛概述,以及对个别现象性能的细粒度分析。对于一些细粒度的分析,我们根据指标涵盖的语言对或指标是否将源文作为输入应用额外的约束条件,以解决感兴趣的特定问题。由于应用了这些额外的约束条件,我们的调查更多地集中在高和中等资源语言上,而不是低资源语言。我们希望在未来的工作中解决这个不足。
ACES数据集采用知识共享署名非商业共享4.0版(cc-by-nc-sa-4.0)
@inproceedings{amrhein-aces-2022,title = "{ACES}: Translation Accuracy Challenge Sets for Evaluating Machine Translation Metrics",author = {Amrhein, Chantal and Moghe, Nikita and Guillou, Liane},booktitle = "Seventh Conference on Machine Translation (WMT22)",month = dec,year = "2022",address = "Abu Dhabi, United Arab Emirates",publisher = "Association for Computational Linguistics",eprint = {2210.15615}}
Chantal Amrhein 和 Nikita Moghe 和 Liane Guillou
基于 Allociné 的数据集卡片