数据集:
scb_mt_enth_2020
scb-mt-en-th-2020:一个大规模的英泰平行语料库。我们的主要目标是建立一个用于机器翻译的大规模英泰数据集。我们从各种来源收集了超过100万个片段对的英泰机器翻译数据集,包括新闻、维基百科文章、短信、任务对话、网络爬取数据和政府文件。我们以可重复的方式呈现了数据收集、构建平行文本和去噪句对的方法。我们基于该数据集训练了机器翻译模型。与Google翻译API(截至2020年5月)相比,我们的模型性能与泰-英翻译以及英-泰翻译中包含Open Parallel Corpus (OPUS)的训练数据时,超越了Google的性能。该数据集、预训练模型和源代码可供公众使用。
机器翻译
英语,泰语
{'subdataset': 'aqdf', 'translation': {'en': 'FAR LEFT: Indonesian National Police Chief Tito Karnavian, from left, Philippine National Police Chief Ronald Dela Rosa and Royal Malaysian Police Inspector General Khalid Abu Bakar link arms before the Trilateral Security Meeting in Pasay city, southeast of Manila, Philippines, in June 2017. [THE ASSOCIATED PRESS]', 'th': '(ซ้ายสุด) นายติโต คาร์นาเวียน ผู้บัญชาการตํารวจแห่งชาติอินโดนีเซีย (จากซ้าย) นายโรนัลด์ เดลา โรซา ผู้บัญชาการตํารวจแห่งชาติฟิลิปปินส์ และนายคาลิด อาบู บาการ์ ผู้บัญชาการตํารวจแห่งชาติมาเลเซีย ไขว้แขนกันก่อนเริ่มการประชุมความมั่นคงไตรภาคีในเมืองปาเซย์ ซึ่งอยู่ทางตะวันออกเฉียงใต้ของกรุงมะนิลา ประเทศฟิลิปปินส์ ในเดือนมิถุนายน พ.ศ. 2560 ดิแอสโซซิเอทเต็ด เพรส'}} {'subdataset': 'thai_websites', 'translation': {'en': "*Applicants from certain countries may be required to pay a visa issuance fee after their application is approved. The Department of State's website has more information about visa issuance fees and can help you determine if an issuance fee applies to your nationality.", 'th': 'ประเภทวีซ่า รวมถึงค่าธรรมเนียม และข้อกําหนดในการสัมภาษณ์วีซ่า จะขึ้นอยู่กับชนิดของหนังสือเดินทาง และจุดประสงค์ในการเดินทางของท่าน โปรดดูตารางด้านล่างก่อนการสมัครวีซ่า'}} {'subdataset': 'nus_sms', 'translation': {'en': 'Yup... Okay. Cya tmr... So long nvr write already... Dunno whether tmr can come up with 500 words', 'th': 'ใช่...ได้ แล้วเจอกันพรุ่งนี้... นานแล้วไม่เคยเขียน... ไม่รู้ว่าพรุ่งนี้จะทําได้ถึง500คําไหมเลย'}}
Split ratio (train, valid, test) : (0.8, 0.1, 0.1) Number of paris (train, valid, test): 801,402 | 100,173 | 100,177 # Train generated_reviews_yn: 218,637 ( 27.28% ) task_master_1: 185,671 ( 23.17% ) generated_reviews_translator: 105,561 ( 13.17% ) thai_websites: 93,518 ( 11.67% ) paracrawl: 46,802 ( 5.84% ) nus_sms: 34,495 ( 4.30% ) mozilla_common_voice: 2,451 ( 4.05% ) wikipedia: 26,163 ( 3.26% cd) generated_reviews_crowd: 19,769 ( 2.47% ) assorted_government: 19,712 ( 2.46% ) aqdf: 10,466 ( 1.31% ) msr_paraphrase: 8,157 ( 1.02% ) # Valid generated_reviews_yn: 30,786 ( 30.73% ) task_master_1: 18,531 ( 18.50% ) generated_reviews_translator: 13,884 ( 13.86% ) thai_websites: 13,381 ( 13.36% ) paracrawl: 6,618 ( 6.61% ) nus_sms: 4,628 ( 4.62% ) wikipedia: 3,796 ( 3.79% ) assorted_government: 2,842 ( 2.83% ) generated_reviews_crowd: 2,409 ( 2.40% ) aqdf: 1,518 ( 1.52% ) msr_paraphrase: 1,107 ( 1.11% ) mozilla_common_voice: 673 ( 0.67% ) # Test generated_reviews_yn: 30,785 ( 30.73% ) task_master_1: 18,531 ( 18.50% ) generated_reviews_translator: 13,885 ( 13.86% ) thai_websites: 13,381 ( 13.36% ) paracrawl: 6,619 ( 6.61% ) nus_sms: 4,627 ( 4.62% ) wikipedia: 3,797 ( 3.79% ) assorted_government: 2,844 ( 2.83% ) generated_reviews_crowd: 2,409 ( 2.40% ) aqdf: 1,519 ( 1.52% ) msr_paraphrase: 1,107 ( 1.11% ) mozilla_common_voice : 673 ( 0.67% )
AIResearch ,由 VISTEC 和 depa 资助,作为公共NLP基础设施的一部分,策划了该数据集。该中心以CC-BY-SA 4.0的方式发布数据集和基线模型。
句对从新闻、维基百科文章、短信、任务对话、网络爬取数据和政府文件中策划。句对生成方式有:
有关数据集策划的详细说明,请参阅 https://arxiv.org/pdf/2007.03541.pdf 。
网络爬取数据,即 paracrawl 和 thai_websites 中,可能包含个人信息的风险。
与英语不同,泰语中没有段落边界标记。一个泰语段落可能覆盖不了一个英语段落的全部内容。目前,我们通过将泰语段落分组在一起后计算文本相似度分数来缓解这个问题。然后,我们选择具有最高文本相似度分数的组合。可以说,适当性是构建此数据集的主要问题。网络爬取的翻译质量问题一些网站使用机器翻译模型(如Google翻译)对其内容进行本地化翻译。因此,从网络爬取获取的泰语段落可能存在流畅性问题,因为我们没有使用人工标注者进行质量控制。
众包翻译质量控制当我们使用众包平台来翻译内容时,无法完全控制翻译质量。为了解决这个问题,我们使用文本相似度阈值过滤掉质量较低的段落,该阈值是基于通用句子编码器向量的余弦相似度。此外,一些众包翻译员可能会将源段复制粘贴到翻译引擎中,并将结果作为平台的答案。为了进一步改进,我们可以采用[Zaidan, 2012]中描述的技术来控制质量,避免在平台上发生欺诈行为。
机器翻译模型的领域依赖性我们通过比较在相同数据集上训练和测试的模型,使用80/10/10的训练-验证-测试划分,以及在一个数据集上训练并在另一个数据集上进行测试来测试机器翻译模型的领域依赖性。
AIResearch ,由 VISTEC 和 depa 资助
CC-BY-SA 4.0
@article{lowphansirikul2020scb, title={scb-mt-en-th-2020: A Large English-Thai Parallel Corpus}, author={Lowphansirikul, Lalita and Polpanumas, Charin and Rutherford, Attapol T and Nutanong, Sarana}, journal={arXiv preprint arXiv:2007.03541}, year={2020} }
感谢 @cstorm125 添加了该数据集。