亚马逊机器学习团队开发可离线工作的复杂语音识别模型

2018年08月14日 由 浅浅 发表 375611 0
亚马逊机器学习团队开发可离线工作的复杂语音识别模型

世界上最受欢迎的虚拟助手有什么共同之处?它们在云中执行大部分语音识别,他们的自然语言模型利用功能强大的服务器,具有几乎无限的处理能力。它在很大程度上是可以接受的。通常,处理在几毫秒内完成,但对于没有互联网连接的用户来说是一个明显的问题。

幸运的是,亚马逊的Alexa机器学习团队最近在将语音识别模型脱机方面取得了进展。他们开发了导航,温度控制和音乐播放算法,可以在设备上离线执行。

他们的研究论文“Statistical Model Compression for Small-Footprint Natural Language Understanding”将在今年在印度海德拉巴举行的Interspeech机器学习会议上展示。

这并不容易。正如研究人员解释的那样,自然语言处理模型往往具有显着的记忆足迹。扩展Alexa功能的第三方应用程序是按需加载的,将它们存储在内存中会显着增加语音识别的延迟。

“Alexa的自然语言理解系统......使用几种不同类型的机器学习(ML)模型,但它们都有一些共同的特征,”主要作者Grant Strimel表示,“一个是他们学习从输入话语中提取'特征',或具有特定预测价值的文本串......另一个共同特征是每个特征都有一组相关的'权重',它决定了它应该扮演多大的角色在不同类型的计算中。需要为数百万个功能存储多个权重才能使ML模型具有内存密集性。”

最终,他们选择了一个由两部分组成的解决方案:参数量化和完美特征散列法。

量化是将连续值范围转换为有限范围的离散值的过程,是算法模型压缩中的传统技术。在这里,研究人员将权重分为256个区间,这使得它们能够用单个字节的数据来表示模型中的每个权重。他们将低权重舍入为零,以便它们可以被丢弃。

第二种技术利用了散列函数,正如Strimel写的那样,“接受任意输入并将它们加扰......以这样的方式使得输出(1)具有固定的大小,并且(2)与输入没有可预测的关系。例如,如果输出大小是16位,65536个可能的散列值,则值1可能映射到“Weezer”,而值50可能对应于“Elton John”。

用散列函数的问题是,他们往往会导致冲突,或相关的值(例如,“Hank Williams, Jr.”和“Hank Williams”)不映射到散列值列表的相同位置。为了区分值的权重,需要的元数据通常需要比它标记的数据更多的内存空间。

为了解决冲突,该团队使用了一种称为完美散列的技术,该技术将特定数量的数据项映射到相同数量的内存插槽。

“系统可以简单地散列一串字符并提取相应的权重而不需要元数据,”Strimel写道。

最后,该团队表示,与在线语音识别模型相比,量化和散列函数使内存使用量减少了14倍。令人印象深刻的是,它并没有影响准确性,离线算法“基本上与基线模型一样好”,误差增加不到1%。

团队写道:“我们观察到这些方法在模型评估时间和预测性能方面做出了最小的牺牲。我们的目标是减少内存占用,以支持本地语音助理,并减少云中自然语言处理模型的延迟。”

论文:arxiv.org/pdf/1807.07520.pdf

更多语音识别数据集点击“这里”下载
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消