Voysis为移动设备开发了可离线的WaveNet语音合成模型
2018年09月28日 由 浅浅 发表
97665
0
尽管经过数十年的发展,仍然难以出现能够产生高度逼真的语音的AI平台。不过还是取得了一些进展。2016年9月,总部位于伦敦的谷歌子公司DeepMind开发了一个深度神经网络,可以对人类语音进行采样并直接模拟波形。美国英语和普通话测试表明,它可以胜过当时最先进的文本到语音转换(TTS)系统,包括谷歌自己的系统。更好的是,它只需要两秒钟就可以生成样本。
从那时起,Google和Lyrebird等初创公司已经在生产中部署了WaveNet模型(它已被用于为Google智能助理生成语音),但到目前为止所有实施,包括来自Facebook和百度都利用了强大的云平台和定制,设计专用集成电路(ASIC)用于处理。但位于都柏林的Voysis宣布开发基于WaveNet的技术,不仅可以离线运行,还可以在智能手机和其他带有移动处理器的设备上运行。
Voysis将其解决方案称为ViEW或Voysis Embedded WaveNet。与其他WaveNets一样,ViEW采用卷积神经网络,直接处理原始音频信号。该公司称,它只需50MB即可运行,比Apple的Siri型号小10倍。它还利用了可用的图形芯片和其他硬件加速功能,从今天起可供Voysis客户使用。
“ViEW,Voysis Embedded WaveNet,是语音和会话功能下一代发展的开始。这项技术打开了与任何和所有设备进行智能对话的大门。随着消费者数据在设备上本地处理,消费者隐私问题得到解决; 还解决了围绕数据中心成本,正常运行时间和维护的业务问题,”Voysis联合创始人Peter Cahill博士表示。
传统的离线,边缘文本到语音系统采用称为连接的方法进行合成。从本质上讲,他们将录制的语音数据库分成小单元,个人手机,双音素,半音,音节,单词,短语和句子,用软件智能拼接在一起。由于语音的自然变化与自动波形分割技术中的缺点之间的差异,结果通常听起来不自然。
WaveNets通过生成新颖的语音来避免这个问题。
Voysis 在去年11月声称取得了突破,当时它发布了完全由算法产生的令人信服的令人信服的语音样本。
Cahill在学术界从事语音识别工作已有15年的时间,他创立了Voysis,目标是解决自然语言处理领域的特定领域,如电子商务和娱乐。其Voysis Commerce平台允许零售客户提供现有材料的数据库,包括为广告和产品页面编写的副本,以通知能够跟踪上下文的独特定制的语音模型。算法随着时间的推移而改进,可以在Voysis的云仪表板中通过单按按钮进行重新训练。
Voysis在其网站上写道:“默认情况下,所有内容都是可重复的,任务会自动重复数据删除,代码可以在数千台机器上扩展,而我们的科学家无需编写任何代码。” 除了可以集成到网站中的API和JavaScript库之外,其专有的语音识别和深度学习技术还可以以Android和iOS的软件开发工具包(SDK)的形式提供。