IBM分布式深度学习技术将语音识别训练时间从一周缩短到11小时
2019年04月11日 由 明知不问 发表
214798
0
可靠,稳健、可通用的语音识别是机器学习中的一个持续性挑战。训练自然语言理解模型不仅需要包含数千小时语音和数百万(甚至数十亿)文本单词的语料库,还需要足够强大的硬件以在合理的时间范围内处理它们。
为了减轻计算负担,IBM在一篇新发表的论文“Distributed Deep Learning Strategies for Automatic Speech Recognition”中提出了一种分布式处理架构,该架构可以使训练加速15倍,并且在流行的开源基准测试中不会损失准确性。该论文的作者表示,该系统部署在包含多个显卡的系统上,可以将训练时间从几周减少到几天。
这项研究将于下个月在IEEE国际声学,语音和信号处理会议(ICASSP)会议上公布。
研究者解释,训练像Siri,谷歌智能助手和亚马逊的Alexa那样的自动语音识别(ASR)系统需要复杂的编码系统,以将语音转换为可被深度学习系统和解码系统理解的特征,从而转换为人类可读的文本。模型往往也更大,这使得大规模训练更加困难。
一般来说,团队的并行化解决方案需要增加批处理大小,或者可以一次处理的样本数量,而不是不加选择地处理,这会对准确性产生负面影响。该团队他们使用的方法将批量大小增加到2560,同时应用异步分散并行随机梯度下降(ADPSGD)的分布式深度学习技术。
正如研究人员解释的那样,大多数深度学习模型采用同步优化方法,这会受到慢速系统的影响,另外的模型使用基于参数-服务器(PS)的异步方法,这往往会导致模型不太准确。相比之下,IBM去年在论文中首次详述的ADPSGD是异步和分散的,保证了模型准确性的基线水平,并为某些类型的优化问题提供了加速方案。
在测试中,该论文的作者表示,ADPSGD将ASR作业运行时间从单个V100 GPU上的一周缩短到32-GPU系统上的11.5小时。
“在半天内完成训练工作是十分实用的,因为它使研究人员能够快速迭代开发新的算法,这也允许开发人员快速地调整现有模型以适应应用程序,特别是对于自定义用例,需要大量语音来实现鲁棒性和高精确度。”