数据集:

scb_mt_enth_2020

英文

scb_mt_enth_2020 数据集卡片

数据集摘要

scb-mt-en-th-2020:一个大规模的英泰平行语料库。我们的主要目标是建立一个用于机器翻译的大规模英泰数据集。我们从各种来源收集了超过100万个片段对的英泰机器翻译数据集,包括新闻、维基百科文章、短信、任务对话、网络爬取数据和政府文件。我们以可重复的方式呈现了数据收集、构建平行文本和去噪句对的方法。我们基于该数据集训练了机器翻译模型。与Google翻译API(截至2020年5月)相比,我们的模型性能与泰-英翻译以及英-泰翻译中包含Open Parallel Corpus (OPUS)的训练数据时,超越了Google的性能。该数据集、预训练模型和源代码可供公众使用。

支持的任务和排行榜

机器翻译

语言

英语,泰语

数据集结构

数据实例

{'subdataset': 'aqdf', 'translation': {'en': 'FAR LEFT: Indonesian National Police Chief Tito Karnavian, from left, Philippine National Police Chief Ronald Dela Rosa and Royal Malaysian Police Inspector General Khalid Abu Bakar link arms before the Trilateral Security Meeting in Pasay city, southeast of Manila, Philippines, in June 2017. [THE ASSOCIATED PRESS]', 'th': '(ซ้ายสุด) นายติโต คาร์นาเวียน ผู้บัญชาการตํารวจแห่งชาติอินโดนีเซีย (จากซ้าย) นายโรนัลด์ เดลา โรซา ผู้บัญชาการตํารวจแห่งชาติฟิลิปปินส์ และนายคาลิด อาบู บาการ์ ผู้บัญชาการตํารวจแห่งชาติมาเลเซีย ไขว้แขนกันก่อนเริ่มการประชุมความมั่นคงไตรภาคีในเมืองปาเซย์ ซึ่งอยู่ทางตะวันออกเฉียงใต้ของกรุงมะนิลา ประเทศฟิลิปปินส์ ในเดือนมิถุนายน พ.ศ. 2560 ดิแอสโซซิเอทเต็ด เพรส'}}
{'subdataset': 'thai_websites', 'translation': {'en': "*Applicants from certain countries may be required to pay a visa issuance fee after their application is approved. The Department of State's website has more information about visa issuance fees and can help you determine if an issuance fee applies to your nationality.", 'th': 'ประเภทวีซ่า รวมถึงค่าธรรมเนียม และข้อกําหนดในการสัมภาษณ์วีซ่า จะขึ้นอยู่กับชนิดของหนังสือเดินทาง และจุดประสงค์ในการเดินทางของท่าน โปรดดูตารางด้านล่างก่อนการสมัครวีซ่า'}}
{'subdataset': 'nus_sms', 'translation': {'en': 'Yup... Okay. Cya tmr... So long nvr write already... Dunno whether tmr can come up with 500 words', 'th': 'ใช่...ได้ แล้วเจอกันพรุ่งนี้... นานแล้วไม่เคยเขียน... ไม่รู้ว่าพรุ่งนี้จะทําได้ถึง500คําไหมเลย'}}

数据字段

  • subdataset:句对所属的子数据集
  • translation:
    • en:英语句子(原始来源)
    • th:泰语句子(原始翻译目标)

数据划分

Split ratio (train, valid, test) : (0.8, 0.1, 0.1)
Number of paris (train, valid, test): 801,402 | 100,173 | 100,177

# Train
generated_reviews_yn: 218,637 ( 27.28% )
task_master_1: 185,671 ( 23.17% )
generated_reviews_translator: 105,561 ( 13.17% )
thai_websites: 93,518 ( 11.67% )
paracrawl: 46,802 (  5.84% )
nus_sms: 34,495 (  4.30% )
mozilla_common_voice: 2,451 (  4.05% )
wikipedia: 26,163 (  3.26% cd)
generated_reviews_crowd: 19,769 (  2.47% )
assorted_government: 19,712 (  2.46% )
aqdf: 10,466 (  1.31% )
msr_paraphrase: 8,157 (  1.02% ) 

# Valid
generated_reviews_yn: 30,786 ( 30.73% )
task_master_1: 18,531 ( 18.50% )
generated_reviews_translator: 13,884 ( 13.86% )
thai_websites: 13,381 ( 13.36% )
paracrawl: 6,618 (  6.61% )
nus_sms: 4,628 (  4.62% )
wikipedia: 3,796 (  3.79% )
assorted_government: 2,842 (  2.83% )
generated_reviews_crowd: 2,409 (  2.40% )
aqdf: 1,518 (  1.52% )
msr_paraphrase: 1,107 (  1.11% )
mozilla_common_voice: 673 (  0.67% )

# Test
generated_reviews_yn: 30,785 ( 30.73% )
task_master_1: 18,531 ( 18.50% )
generated_reviews_translator: 13,885 ( 13.86% )
thai_websites: 13,381 ( 13.36% )
paracrawl: 6,619 (  6.61% )
nus_sms: 4,627 (  4.62% )
wikipedia: 3,797 (  3.79% )
assorted_government: 2,844 (  2.83% )
generated_reviews_crowd: 2,409 (  2.40% )
aqdf: 1,519 (  1.52% )
msr_paraphrase: 1,107 (  1.11% )
mozilla_common_voice : 673 (  0.67% )

数据集创建

策划理由

AIResearch ,由 VISTEC depa 资助,作为公共NLP基础设施的一部分,策划了该数据集。该中心以CC-BY-SA 4.0的方式发布数据集和基线模型。

来源数据

初始数据收集和标准化

句对从新闻、维基百科文章、短信、任务对话、网络爬取数据和政府文件中策划。句对生成方式有:

有关数据集策划的详细说明,请参阅 https://arxiv.org/pdf/2007.03541.pdf

注释

来源和注释过程
  • generated_reviews_yn:由 CTRL 生成,使用Google翻译API翻译为泰语,并由人工标注者标记为接受或拒绝(不包括被拒绝的句对)
  • task_master_1:由 AIResearch 聘请的专业翻译员翻译
  • generated_reviews_translator:由 AIResearch 聘请的专业翻译员翻译
  • thai_websites:从泰国前500个网站进行网络爬取;各自的内容创建者;作者仅进行句子对齐
  • paracrawl:复制Paracrawl的网络爬取方法;各自的内容创建者;作者仅进行句子对齐
  • nus_sms:由 AIResearch 聘请的众包翻译员翻译
  • wikipedia:泰语维基百科;各自的内容创建者;作者仅进行句子对齐
  • assorted_government:来自各个政府网站的政府文件PDF;各自的内容创建者;作者仅进行句子对齐
  • generated_reviews_crowd:由 CTRL 生成,使用由 AIResearch 聘请的众包翻译员翻译为泰语
  • aqdf:来自 Asia Pacific Defense Forum 的双语新闻;各自的内容创建者;作者仅进行句子对齐
  • msr_paraphrase:由 AIResearch 聘请的众包翻译员翻译为泰语
  • mozilla_common_voice: Mozilla Common Voice 的英文版本,由 AIResearch 聘请的众包翻译员翻译为泰语

个人和敏感信息

网络爬取数据,即 paracrawl 和 thai_websites 中,可能包含个人信息的风险。

使用数据时需考虑的因素

数据的社会影响

  • 这是第一个目前规模最大、严格清理和去重的英泰机器翻译数据集,相对于其他来源如Paracrawl来说。

偏见讨论

  • 泰语中基于性别的结束敬语(ครับ/ค่ะ)可能不平衡,因为在 task_master_1 中的女性翻译员较多。

其他已知限制

带有和不带有边界的语言段的分段对齐

与英语不同,泰语中没有段落边界标记。一个泰语段落可能覆盖不了一个英语段落的全部内容。目前,我们通过将泰语段落分组在一起后计算文本相似度分数来缓解这个问题。然后,我们选择具有最高文本相似度分数的组合。可以说,适当性是构建此数据集的主要问题。网络爬取的翻译质量问题一些网站使用机器翻译模型(如Google翻译)对其内容进行本地化翻译。因此,从网络爬取获取的泰语段落可能存在流畅性问题,因为我们没有使用人工标注者进行质量控制。

众包翻译质量控制

当我们使用众包平台来翻译内容时,无法完全控制翻译质量。为了解决这个问题,我们使用文本相似度阈值过滤掉质量较低的段落,该阈值是基于通用句子编码器向量的余弦相似度。此外,一些众包翻译员可能会将源段复制粘贴到翻译引擎中,并将结果作为平台的答案。为了进一步改进,我们可以采用[Zaidan, 2012]中描述的技术来控制质量,避免在平台上发生欺诈行为。

机器翻译模型的领域依赖性

我们通过比较在相同数据集上训练和测试的模型,使用80/10/10的训练-验证-测试划分,以及在一个数据集上训练并在另一个数据集上进行测试来测试机器翻译模型的领域依赖性。

附加信息

数据集策划者

AIResearch ,由 VISTEC depa 资助

许可信息

CC-BY-SA 4.0

引用信息

@article{lowphansirikul2020scb,
  title={scb-mt-en-th-2020: A Large English-Thai Parallel Corpus},
  author={Lowphansirikul, Lalita and Polpanumas, Charin and Rutherford, Attapol T and Nutanong, Sarana},
  journal={arXiv preprint arXiv:2007.03541},
  year={2020}
}

贡献

感谢 @cstorm125 添加了该数据集。