亚马逊申请专利:机器学习检测并修改口音以减轻交流障碍
2018年08月07日 由 浅浅 发表
928010
0
亚马逊已申请音频系统专利,可检测重音并将其改为听众的口音,可能有助于消除许多情况和行业中的通信障碍。该专利并不意味着该公司已经成功(或者必然会被授予),但也没有技术上的理由说明它不能这样做。
专利描述了口音翻译的技巧。尽管采用了必要的专利,但这种方法还是很清楚的。
在双方对话中,分析接收的音频以查看它是否与各种存储的重音中的一个匹配。如果是,则基于另一方的重音输出来自每一方的输入音频。
这是一种明智的选择,特别是考虑到现在正在自然语言处理中完成的所有工作。口音可能很难理解,特别是如果你之前没有与这个人交谈过,特别是面部和身体运动的关键线索使得面对面的交流变得更加有效。
最明显的地方是支持口音翻译,这是一个很明显的地方,在遥远的国家,人们经常会有成千上万的电话。支持人的目标是清晰地沟通,避免在语言障碍中增加打电话者的烦恼。口音管理是这些行业的重要组成部分,支持人员经常被要求通过语言和口音测试,以便在他们工作的组织中前进。
计算口音的去除器不仅能改善他们的命运,还能让他们更有效率。现在,一个有阿拉伯口音的人也可以和任何说同一种语言的人交流,如果对方的母语是奥地利语、俄语,或者韩式英语,那就不用担心;如果是英语,它就应该起作用。
当然还有很多其他情况可能会有所帮助,例如旅行或开展国际业务。
至于这个系统的实际执行情况,这是一个很大的未知数。但亚马逊拥有大量资金和工程人才,致力于自然语言处理,而且这个系统并没有让人觉得不切实际或无法实现。
当然,它将是一种机器学习模型,或者更确切地说是一组机器学习模型,每个模型都由具有特定口音的人在几个小时的讲话中训练。Alexa在世界范围内的存在是件好事。亚马逊有来自Echoes和其他设备的大量音频样本,所以很多口音可能已经在他们的库中占了一席之地。从那里开始,只需要从该数据集中代表性不足的任何群体中搜索录音。
这些方面的研究肯定已经完成,但亚马逊似乎在创建一个在产品形式中使用这些知识的特定系统方面有所突破。
特别是专利允许一点欺骗系统部分:它必须争夺在最初几秒钟来识别你的口音,但可以通过检查堆栈上设备位置,电话号码,以前的口音,当然仅仅允许讲话人手动选择他们的口音。当然,巴基斯坦人的口音仍然会有变化,但只要有足够的数据,系统就应该能够检测并适应这种情况。
与专利一样,我们无法保证实际上会采用产品形式;它可能只是研究或“防御性”专利,旨在阻止竞争对手在此期间创建这样的系统。但在这种情况下,我确信产品很可能会在明年左右出现。