Facebook发布低延迟在线语音识别框架
2020年01月14日 由 TGS 发表
967981
0
Facebook人工智能今天宣布,其基于深度学习的推理框架Wav2letter@anywhere,目前已经可以在云环境或嵌入式边缘环境中实现快速在线自动语音识别。——Wav2letter@anywhere由基于神经网络的语言模型wav2letter和wav2letter++构成,它们在2018年12月发布时,被称为可用的、最快的开源语音识别系统。
自动语音识别(ASR)是将说话人的声音转换成文本,然后推断说话人执行意图的技术。wav2letter++知识库在GitHub上提供的API支持并发音频流和流行的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线ASR所需的规模。
据来自纽约市实验室和Menlo Park公司总部的八名公平研究人员上周发布的一篇论文称,Wav2letter@anywhere的单词错误率优于由双向LSTM RNNs制作的两个基线模型。双向LSTM RNNs是一种流行的控制延迟的方法,如今,Wav2letter@anywhere超越了它。
“该系统的吞吐量几乎是调优混合ASR基线的三倍,同时具有更低的延迟和更好的单词错误率。虽然延迟控制的双向LSTMs通常用于在线语音识别,但将未来的上下文与卷积结合可以生成更准确、更低延迟的模型。我们发现TDS卷积可以在有限的未来环境中保持较低的期望。”研究人员在论文中这样表述道。
这些进步是通过改进时间-深度可分(TBS)卷积的卷积声学模型实现的,该方法由Facebook在去年秋天的Interspeech 2019上提出,它不仅减少了延迟,还在LibriSpeech上提供了最先进的性能。
用于语音推断的CNNs背离了自然语言模型的发展趋势,后者着眼于递归神经网络或基于变压器的模型,如Google的变压器、双向编码器。可分离模型在计算机视觉领域的应用最为著名,比如:谷歌的MobileNet。wav2letter@anywhere的推出,是在Pythia图像和语言模型框架,以及wav2vec在线语音识别和RoBERTa等等新颖作品发布之后——RoBERTa是一款基于谷歌BERT的模型,今年夏天在GLUE benchmark排行榜上攀升至第一位,但此后已跌至八位。