云从科技最新资讯 | 语音识别技术 97.03%,一举打破世界纪录
2018年10月29日 由 荟荟 发表
126548
0
近日,云从科技在语音识别技术上取得重大突破,在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,错词率(Worderrorrate,WER)降到了2.97%,将Librispeech的WER指标提升了25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新原先记录。
此次突破标志着云从科技在今年4月刷新跨镜追踪技术(ReID)三项世界纪录后在新领域再次取得重大成果,正全力夯实核心技术闭环。
云从科技核心技术闭环包括人脸识别、智能感知与智能分析三个阶段。
此次语音识别突破属于智能感知中的一环。智能感知即视觉、听觉、触觉等感知能力,能够让计算机通过各种智能感知能力与外界进行交互。
时隔半年 再次刷新世界纪录
今年4月,云从科技跨镜追踪技术(ReID)在Market-1501,DukeMTMC-reID,CUHK03三个数据集刷新了世界纪录,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)达到96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平,人工智能从「刷脸」跨到「识人」的新纪元。
语音识别技术同样是智能感知中一个重要的部分。 通过语音识别,机器就可以像人类一样听懂说话,进而能够理解、思考与反馈。
近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化。基于语音识别技术的输入法、搜索和翻译等人机交互场景都有了广泛的应用。
Librispeech 是当前衡量语音识别技术的最权威主流的开源数据集。错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。
DS2:百度,ESPnet:约翰霍普金斯大学,DFSMN-CE:阿里
在技术研究的「最后一英里」,每 0.1 个百分点的进步都异常艰难。
云从科技在Librispeech数据集上刷新了业内最好的水平,将错词率(Worderrorrate,WER)降到了惊人的2.97%,较之前提升了25%,已超越人类专业速记员水平。
能够获得如此大幅度的突破,充分说明云从科技语音识别研究成果的价值,该成果必然能够推动语音识别技术的大幅进步,也使得语音识别离更良好的交互体验越来越近。
云从科技此次推出的语音识别模型将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的LSTM模型,训练速度更快、识别准确率更高。
构建核心技术闭环实现人工智能“五步走”战略
在10月12日的国家发改委“人工智能基础资源公共服务平台”项目发布会上,云从科技创始人周曦提出了人工智能发展的五个阶段,核心技术闭环是五个阶段的重要基础。
云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录,并在金融、安防、机场等优势行业建设基于智能分析的“行业大脑”,稳步推进从核心技术到智能生态的五步走战略。
目前,云从科技是中国银行业第一大AI供应商。包括农行、建行、中行、招行总行等全国400多家银行已采用公司产品,为全国银行提供对比服务日均2.16亿次,同时为14.7万家社会网点提供服务。
在安防领域,公司产品已在29个省级行政区上线实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;
民航领域,全国多个枢纽机场选择云从产品,日服务旅客人数达到6千万。
在这些基础上,云从科技正在致力整合算力、智力、数据等资源及其成果,打造人工智能平台,进一步促进人工智能在金融、安防、交通、零售、教育等重要行业的落地。
Pyramidal-FSMN语音识别模型原理解析
云从科技提出的新型网络结构,能更加有效的提取空间和时间特征的角度,为语音识别进一步发展提供了一些新的思路:
模型设计采用一种残差卷积网络和金字塔记忆模块的序列记忆网络相结合的结构;
训练方式使用lattice-free最大互信息(lattice-free maximum mutual information, LF-MMI/Chain)与交叉熵(crossentropy,CE)损失函数相结合的多任务学习技术;
解 码部分 采取RNNLM rescoring的方式,利用RNN提取一个句子中的长期语义信息,从而更有效地帮助声学模型得到准确的句子。
如下图所示,作者采用了由6层ResidualCNN和10层Pyramidal-FSMN相结合的网络结构。
前端网络借鉴了图像识别中经典的Residual CNN结构,更有效地提取特征与时间相互的关联信息,同时skipconnection避免了CNN网络加深之后梯度消失和梯度爆炸问题。
在金字塔记忆模块中,浅层的网络主要聚焦于音素本身的特征学习,所以只需抽取短时上下文信息,而深层的网络由于已经学习到了足够的固定时间的音素信息,需要学习长时间包括语义和语法特征,所以深层抽取长时间的上下文信息。利用这样的金字塔结构,既能减少参数,缩小模型结构,也能更加精巧的模拟人类处理语音信号的过程,提高识别效果。
在损失函数部分 ,作者采用了基于LF-MMI的序列性训练方式。 同时为了解决序列性训练容易导致过拟合的问题,又引入了传统的交叉熵损失函数,在LF-MMI输出之外加入另一个输出层作为一个正则技术,通过设置交叉熵的正则化系数,两个目标能够有效地学习并且避免过拟合问题。
最后,作者使用了RNNLM rescoring技术对解码做进一步处理。在没有RNNLM rescoring的情况下,Pyramidal-FSMN已经达到了目前最好的结果,rescoring之后又有了更进一步的提升。
声学模型和RNNLM的训练数据完全基于Librispeech和通用的语言模型数据集,并没有额外引入其他的训练数据这样的“技巧”性策略。
论文@云从科技
论文地址:
https://arxiv.org/abs/1810.11352
相关介绍:
LibriSpeech数据集:世界最大的免费语音识别数据库,包含文本和语音的有声读物数据集,由1000小时的多人朗读的清晰音频组成,且包含书籍的章节结构。