亚马逊Alexa即将推出基于AI的耳语模式
2018年09月27日 由 浅浅 发表
111044
0
亚马逊推出了一系列功能,这些功能将通过其Alexa语音平台推向新的和现有的智能扬声器。其中一个是“耳语模式”,这使得Alexa能够通过耳语来回应低声说话。在今天发表的博客文章中,亚马逊Alexa语音系统专家Zeynab Raeesy透露了该功能的AI基础。
大部分工作都在一篇论文“基于LSTM的耳语检测”中详细介绍,该论文将于12月在IEEE口语技术研讨会上发表。
Raeesy表示,“如果你在一个孩子刚刚入睡的房间里,而其他人走进来,你可能会低声说话,表明你正试图让房间保持安静。另一个人也可能开始低语,我们希望Alexa以这种自然,直观的方式对会话线索做出反应。”
Raeesy解释说,使低语言难以解释的原因在于它主要是清音,也就是说,它不涉及声带的振动。与普通语音相比,它在低频带中往往具有更少的能量。
她和同事研究了两种不同神经网络的使用,数学函数层在人脑的神经元之后松散地建模,以区分正常和低声的单词。
两个神经网络在架构上有所不同,一个是多层感知器(MLP),第二个是长期短期记忆(LSTM)网络,它按顺序处理输入,但是在相同的数据上训练。所述数据包括(1)对数滤波器组能量,或记录不同频率范围内的信号能量的语音信号的表示,以及(2)“利用”低声和正常语音之间的信号差异的一组特征。
在测试中,他们发现LSTM通常比MLP表现更好,具有许多优点。正如Raeesy所解释的那样,Alexa的语音识别引擎的其他组件完全依赖于日志滤波器组的能量,并且为不同的组件提供相同的输入数据使整个系统更加紧凑。
然而,这并非一帆风顺,至少在最初阶段。因为Alexa通过短暂的沉默(一种称为“结束指向”的技术)识别命令的结束或回复,LSTM的信心度在话语的尾端下降。为了解决这个问题,研究人员对整个话语的LSTM输出进行了平均分析,最后,丢弃最后1.25秒的语音数据对于保持性能至关重要。
耳语模式将于10月份以美国英语提供。