最新研究显示:无需平行文本即可实现机器翻译
2017年11月29日 由 yuxiangyu 发表
694205
0
随着计算机神经网络的不断发展,机器翻译已经取得了长足的进步。但是训练这样的网络需要大量的数据:数以百万计的人类逐句翻译的示例。现在,两篇提交给明年学习报告国际会议的论文表明,神经网络可以在没有平行文本的情况下学习翻译,这是一个惊人的进步,可以让许多语言的文档变得更容易理解。
“想象一下,你给一个人大量的中文书籍和大量的阿拉伯语书籍,并且没有一本是重复的,而这个人必须学会把中文翻译成阿拉伯语。这似乎是不可能的,对吧?”研究的作者之一,西班牙计算机科学家Mikel Artetxe说。但我们证明计算机可以做到这一点。
神经网络和其他大多数的计算机算法使用的机器学习都是监督学习。是计算机通过猜测得到正确答案并不断调整的过程,这种方法在教计算机在英语和法语之间进行翻译时效果很好,因为在两种语言中都存在足够的文档。它并不适用罕见的语种,也不适用于没有许多平行文本的流行语种。
首先,两个智能体在不需要外来指导的情况下构建双语词典。这是能够做到的,语言之间有很多相似的地方。例如,桌子和椅子两个单词在所有语言中都很常见。因此,如果一台计算机将这些共同发生的事件映射出来,就像一个用文字描述城市的巨型路线图,不同语言的地图很类似,只是名字不同而已。然后再让计算机找到地图叠加的最佳方法。
北京微软(Microsoft)的一名计算机科学家表示,在没有人的监督下,电脑也能学会翻译,这让人感到震惊。目前,用这种方法得到的翻译结果与谷歌翻译尚有差距,但它们的作者表示,这只是研究的开端,未来会有更大的进步。
附论文地址:
https://arxiv.org/pdf/1711.00043.pdf
https://arxiv.org/pdf/1710.11041.pdf