Voysis为移动设备开发了可离线的WaveNet语音合成模型

2018年09月28日由浅浅发表 97758 0

尽管经过数十年的发展，仍然难以出现能够产生高度逼真的语音的AI平台。不过还是取得了一些进展。2016年9月，总部位于伦敦的谷歌子公司DeepMind开发了一个深度神经网络，可以对人类语音进行采样并直接模拟波形。美国英语和普通话测试表明，它可以胜过当时最先进的文本到语音转换（TTS）系统，包括谷歌自己的系统。更好的是，它只需要两秒钟就可以生成样本。

从那时起，Google和Lyrebird等初创公司已经在生产中部署了WaveNet模型（它已被用于为Google智能助理生成语音），但到目前为止所有实施，包括来自Facebook和百度都利用了强大的云平台和定制，设计专用集成电路（ASIC）用于处理。但位于都柏林的Voysis宣布开发基于WaveNet的技术，不仅可以离线运行，还可以在智能手机和其他带有移动处理器的设备上运行。

Voysis将其解决方案称为ViEW或Voysis Embedded WaveNet。与其他WaveNets一样，ViEW采用卷积神经网络，直接处理原始音频信号。该公司称，它只需50MB即可运行，比Apple的Siri型号小10倍。它还利用了可用的图形芯片和其他硬件加速功能，从今天起可供Voysis客户使用。

“ViEW，Voysis Embedded WaveNet，是语音和会话功能下一代发展的开始。这项技术打开了与任何和所有设备进行智能对话的大门。随着消费者数据在设备上本地处理，消费者隐私问题得到解决; 还解决了围绕数据中心成本，正常运行时间和维护的业务问题，”Voysis联合创始人Peter Cahill博士表示。

传统的离线，边缘文本到语音系统采用称为连接的方法进行合成。从本质上讲，他们将录制的语音数据库分成小单元，个人手机，双音素，半音，音节，单词，短语和句子，用软件智能拼接在一起。由于语音的自然变化与自动波形分割技术中的缺点之间的差异，结果通常听起来不自然。

WaveNets通过生成新颖的语音来避免这个问题。

Voysis 在去年11月声称取得了突破，当时它发布了完全由算法产生的令人信服的令人信服的语音样本。

Cahill在学术界从事语音识别工作已有15年的时间，他创立了Voysis，目标是解决自然语言处理领域的特定领域，如电子商务和娱乐。其Voysis Commerce平台允许零售客户提供现有材料的数据库，包括为广告和产品页面编写的副本，以通知能够跟踪上下文的独特定制的语音模型。算法随着时间的推移而改进，可以在Voysis的云仪表板中通过单按按钮进行重新训练。

Voysis在其网站上写道：“默认情况下，所有内容都是可重复的，任务会自动重复数据删除，代码可以在数千台机器上扩展，而我们的科学家无需编写任何代码。” 除了可以集成到网站中的API和JavaScript库之外，其专有的语音识别和深度学习技术还可以以Android和iOS的软件开发工具包（SDK）的形式提供。

标签：

语音识别自然语言处理NLP 人工智能应用

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇亚马逊Alexa即将推出基于AI的耳语模式

下一篇亚马逊研究人员详解Alexa如何解决模糊的请求

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来