亚马逊创建并开源数据集,用于理解不同语言的名称
2018年08月10日 由 浅浅 发表
754047
0
亚马逊已经创建并开源了一个数据集,用于训练AI模型以识别不同语言和脚本类型的名称,因此Alexa可以例如在英语发音者发音时理解日本艺术家或人的名字,反之亦然。
这被称为音译多语言命名实体音译系统,用于识别不同语言名称的工具基于在亚马逊从维基数据制作数据集之后创建的AI模型,用于填充维基百科的内容。总之,该数据集包含近400000个阿拉伯语,英语,希伯来语,日语片假名和俄语等语言的名称。
研究结果已发表在Arxiv上,将于本月晚些时候在新墨西哥州圣达菲举行的国际计算语言学会议上分享。
亚马逊AI在识别名称方面的表现因语言对而异。例如,根据亚马逊博客文章,英语到俄语比希伯来语更容易理解,因为虽然它们不同,但英语和俄语的字母表比英语更像希伯来语。
在亚马逊宣布计划将Echo智能扬声器带到墨西哥的同时,亚马逊的语言理解也在受到欢迎,这是第一个讲西班牙语的拉丁美洲Echo扬声器。Alexa Skills Kit和Alexa Voice Service今天也宣布将Alexa带入墨西哥的第三方设备。
随着智能扬声器销售和AI助手采用的竞争在国际市场上升温,它突出了每个AI助手的缺点。虽然Alexa目前使用六种语言,但Siri超过20种,而谷歌今年早些时候表示计划在今年年底之前提供超过30种语言。
为了提高Alexa对新语言的理解,去年亚马逊工程师创建并游戏化了Cleo,这是一种Alexa技能,用于收集来自世界各国的语音样本。
论文:arxiv.org/pdf/1808.02563.pdf