新型ETS转换模型让语音合成更自然

2024年05月28日 由 daydream 发表 115 0

随着科技的飞速发展,我们见证了一系列计算工具的问世,这些工具为残疾人士或感官障碍者带来了生活质量的显著提升。其中,一种被称为肌电图到语音(ETS)转换模型的技术尤为引人注目,它能够将人体骨骼肌产生的电信号转化为语音。


微信截图_20240528103546


最近,布伦瑞克大学和SUPSI的研究人员推出了Diff-ETS,这是一种新型的ETS转换模型,能够生成更加自然的合成语音。这一创新模型在预印本服务器arXiv上发布的论文中得到了详细介绍,它有望为那些因接受喉切除术等手术而失去说话能力的人提供新的交流途径。


传统的ETS转换技术主要由两个核心部分组成:肌电图(EMG)编码器和声码器。EMG编码器负责将EMG信号转化为声学语音特征,而声码器则利用这些特征合成出语音信号。


“由于可用数据的稀缺以及信号噪声的影响,合成语音的自然度往往不尽如人意,”赵仁、凯文·舍克及其同事在论文中这样写道。“我们的工作提出了Diff-ETS模型,它采用了基于得分的扩散概率模型,以提升合成语音的自然度。这种扩散模型被用于提高EMG编码器预测的声学特征的质量。”


与许多由编码器和声码器组成的ETS转换模型相比,Diff-ETS模型新增了一个关键组件——扩散概率模型。这一新添的部分有望使合成语音更加自然。


赵仁、舍克及其同事首先训练了EMG编码器,使其能够根据EMG信号预测出对数梅尔频谱图(音频信号的视觉表现形式)和音素目标。接着,他们利用扩散概率模型对对数梅尔频谱图进行增强,并通过预训练的声码器将其转化为合成语音。


经过一系列严格的测试,研究人员对Diff-ETS模型进行了评估,并将其与现有的基准ETS技术进行了比较。结果令人振奋,因为Diff-ETS生成的语音不仅更加自然,而且更接近真实人声。


“在我们的实验中,我们对预训练的EMG编码器的预测进行了微调,并以端到端的方式训练了两个模型,”赵仁、舍克及其同事在论文中进一步阐述。“通过客观指标和听力测试,我们将Diff-ETS与没有扩散的基准ETS模型进行了比较。结果显示,Diff-ETS在语音自然度方面显著优于基准模型。”


展望未来,这支研究团队所开发的ETS转换模型有望推动可听语音人工生成技术的进一步发展。这些系统将为那些无法说话的人提供发声的机会,使他们能够更轻松地与他人交流。


“在后续的研究中,我们将探索各种方法来减少模型参数的数量,例如通过模型压缩和知识蒸馏等技术,以实现实时生成语音样本,”研究人员表示。“此外,我们还可以尝试同时训练扩散模型、编码器和声码器,以进一步提升语音质量。”

文章来源:https://techxplore.com/news/2024-05-natural-speech.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消