谷歌刚刚大幅扩展了翻译功能,借助其PaLM 2 AI模型添加了110种新语言。此次更新将翻译工具带到了超过6.14亿人,约占世界人口的8%。
此次扩展涵盖的范围很广——从广泛使用的粤语到马恩岛语,这是一种曾经在马恩岛上灭绝的语言。奇怪的是,谷歌选择了较旧的PaLM 2模型来完成这项任务,而不是更新的Gemini AI系列。我们已向谷歌寻求澄清,如果他们回应,我们将更新这篇文章。
非洲语言得到了极大的提升,约占新增语言的四分之一。现在可以使用Fon、Kikongo、Luo和Wolof等语言,这大大增加了谷歌对非洲语言的覆盖范围。
一些有趣的新增语言包括:
粤语:长期以来一直有人要求添加,但由于其与普通话的书面相似性,添加起来很困难。
NKo:一种标准化的西非语言,使用1949年发明的一种独特字母表。
塔马齐格特语:一种在北非广泛使用的柏柏尔语,支持拉丁字母和提非纳格字母两种书写方式。
谷歌专注于每种语言最常见的形式,同时承认存在的广泛差异。例如,他们对罗曼尼语的支持基于南方弗拉克斯语,但也融合了其他方言的元素。
这是谷歌有史以来最大的语言更新。在博客文章中,谷歌翻译的高级工程师Isaac Caswell解释说:“我们正在使用人工智能来扩展我们支持的语言种类。”PaLM 2对于高效学习相关语言(如印地语变体和法语克里奥尔语)至关重要。
此次更新符合谷歌在2022年宣布的支持1000种语言的目标。当时,他们使用零次学习(zero-shot learning)添加了24种语言,即AI在没有示例的情况下进行翻译。
虽然这令人印象深刻,但挑战仍然存在。机器翻译在处理方言、文化背景和不断变化的语言使用方面仍然困难重重。谷歌计划继续与语言学家和母语人士合作,以改进其系统。