亚马逊研究人员详解Alexa如何解决模糊的请求
2018年09月29日 由 浅浅 发表
990224
0
在上周举行的重磅新闻发布会上,亚马逊推出了重新设计的Echo Show,Echo Plus和Echo Spot,以及其他九款由Alexa提供支持的新型其他声控配件,外围设备和智能扬声器。另外还有Alexa Presentation Language,它允许开发人员构建多模式Alexa应用程序,将语音,触摸,文本,图像,图形,音频和视频结合在一个界面中。
根据亚马逊资深演讲科学家Vishal Naik的说法,开发构成它的框架说起来容易做起来难。在今天的博客文章中,他解释了Alexa如何利用多个神经网络来解决模糊的请求。这项工作也在今年早些时候在AI促进协会上发表的论文“Context Aware Conversational Understanding for Intelligent Agents with a Screen”中进行了详细介绍。
“如果用户说,'Alexa,播放哈利波特',Echo Show屏幕可以显示代表哈利波特有声读物,电影和电影配乐的独立图形,”他解释说,“如果用户通过说'最后一个'来跟进,系统必须确定这是否意味着屏幕列表中的最后一项,最后一部哈利波特电影,或其他什么。”
Naik及其同事评估了三种双向长期短期记忆神经网络(BiLSTM)具有略微不同的架构(基本上,LSTM中的存储器单元允许神经网络结合其存储器和输入以提高其预测精度,并且因为它们是双向的,所以它们可以从过去和未来方向访问上下文)。
从Alexa Meaning Representation Language(今年6月发布的带注释的语义表示语言)中获取数据,团队联合训练AI模型,通过意图分类命令,意图指定客户希望Alexa采取的行动,或者指定意图作用的实体的插槽(即有声读物,电影或智能家居设备触发器)。他们用嵌入物或词语的数学表示法训练它们。
三个神经网络中的第一个考虑了上述嵌入和将在其分类中具有屏幕(以向量的形式)在Alexa设备上显示的内容类型。第二步更进一步,不仅考虑了屏幕数据的类型,还考虑了数据类型的具体名称(例如,除了“Onscreen_Movie”之外的“哈利波特”或“黑豹”)。同时,第三个使用卷积滤波器来识别每个名称对最终分类准确性的贡献,并基于其最相关的预测。
为了评估这三种网络的性能,研究人员建立了一个基准,使用硬编码规则来计算屏幕数据。鉴于像“播放哈利波特”这样的命令,它可能会分别估计有50%和10%的概率引用有声读物和音轨。
最后,当使用四种不同的数据集(带有和不带屏幕信息的插槽以及有和没有屏幕信息的意图)进行评估时,所有三种考虑到屏幕数据的AI模型“始终优于”基准和仅限语音的测试集。更重要的是,当专门针对语音输入进行训练时,它们没有表现出降低的准确性。
“我们验证了模型的上下文意识不会导致非上下文功能的退化,”Naik和团队写道,“我们的方法可以自然地扩展到新的视觉用例,而无需手动编写规则。”
在未来的研究中,他们希望探索额外的上下文线索并扩展视觉特征,以便为屏幕上显示的多种对象类型(例如,书籍和电影)编码屏幕对象位置。