高通研究新进展,设备离线语音识别率高达95%
2018年05月28日 由 浅浅 发表
139513
0
在波士顿的Re-Work深度学习峰会上,高通公司的人工智能研究员Chris Lott介绍了他的团队在新的语音识别程序方面的工作。
该系统在智能手机或其他便携式设备上进行本地工作,包括两种神经网络:使用其内部状态或存储器处理输入的递归神经网络(RNN),以及卷积神经网络,这种神经网络模仿人脑中神经元之间的连接模式。Lott说,平均来说,识别单词和短语的概率高达95%。
“它从使用设备的模式中学习,”他说。“它可以个性化行为。”
Lott解释说,目前大多数语音识别系统都在云中处理语音识别。手机中的麦克风和芯片,谷歌家庭和亚马逊Echo扬声器等智能家庭扬声器,以及带有微软Cortana助手的Windows电脑都可以听到一连串的声音命令,但是它们不会分析这些命令,而是将繁琐的工作转移到运行复杂机器学习算法的强大远程服务器上。
对于一些用户来说,将他们的语音数据交给云端会引发隐私问题。亚马逊的Alexa助手和Google智能助理都会在将它们发送给他们进行分析之前记录片段,并且他们保留这些语音片段,直到用户选择删除它们。两家公司都表示他们使用录音来改善他们的服务并提供更多个性化的回应。
但在某些情况下,录音并不保密。2016年,亚利桑那州侦探谋杀案的侦探寻求获取亚马逊Echo演讲者的语音数据,该数据最终得到了被告的许可。
Lott说,除了保护隐私之外,设备上的语音处理还有其他优势。因为它不需要将数据上传到云端,所以它立即响应命令,并且因为它不需要互联网连接,所以这种方式更可靠。
他说:“这是一种以某种神经网络来完成整个端到端系统的方法,这会让设备更自然地进行交互。”
2016年,Google 创建了离线语音识别系统,该系统比当时的在线系统快7倍。该模型经过约2000小时的语音数据训练,尺寸为20.3兆字节,在智能手机上的准确率达到86.5%。
当然,设备离线语音识别有其自身的一些限制。设计为脱机工作的算法无法连接到互联网来搜索问题的答案,并且错过在基于云的系统中通过更大且更多不同数据集进行改进。
但Lott认为高通的解决方案是前进的方向。“云固然很强大,但我们认为语音识别应该直接在设备上实现。”