新型ETS转换模型让语音合成更自然

2024年05月28日由 daydream 发表 115 0

随着科技的飞速发展，我们见证了一系列计算工具的问世，这些工具为残疾人士或感官障碍者带来了生活质量的显著提升。其中，一种被称为肌电图到语音（ETS）转换模型的技术尤为引人注目，它能够将人体骨骼肌产生的电信号转化为语音。

微信截图_20240528103546

最近，布伦瑞克大学和SUPSI的研究人员推出了Diff-ETS，这是一种新型的ETS转换模型，能够生成更加自然的合成语音。这一创新模型在预印本服务器arXiv上发布的论文中得到了详细介绍，它有望为那些因接受喉切除术等手术而失去说话能力的人提供新的交流途径。

传统的ETS转换技术主要由两个核心部分组成：肌电图（EMG）编码器和声码器。EMG编码器负责将EMG信号转化为声学语音特征，而声码器则利用这些特征合成出语音信号。

“由于可用数据的稀缺以及信号噪声的影响，合成语音的自然度往往不尽如人意，”赵仁、凯文·舍克及其同事在论文中这样写道。“我们的工作提出了Diff-ETS模型，它采用了基于得分的扩散概率模型，以提升合成语音的自然度。这种扩散模型被用于提高EMG编码器预测的声学特征的质量。”

与许多由编码器和声码器组成的ETS转换模型相比，Diff-ETS模型新增了一个关键组件——扩散概率模型。这一新添的部分有望使合成语音更加自然。

赵仁、舍克及其同事首先训练了EMG编码器，使其能够根据EMG信号预测出对数梅尔频谱图（音频信号的视觉表现形式）和音素目标。接着，他们利用扩散概率模型对对数梅尔频谱图进行增强，并通过预训练的声码器将其转化为合成语音。

经过一系列严格的测试，研究人员对Diff-ETS模型进行了评估，并将其与现有的基准ETS技术进行了比较。结果令人振奋，因为Diff-ETS生成的语音不仅更加自然，而且更接近真实人声。

“在我们的实验中，我们对预训练的EMG编码器的预测进行了微调，并以端到端的方式训练了两个模型，”赵仁、舍克及其同事在论文中进一步阐述。“通过客观指标和听力测试，我们将Diff-ETS与没有扩散的基准ETS模型进行了比较。结果显示，Diff-ETS在语音自然度方面显著优于基准模型。”

展望未来，这支研究团队所开发的ETS转换模型有望推动可听语音人工生成技术的进一步发展。这些系统将为那些无法说话的人提供发声的机会，使他们能够更轻松地与他人交流。

“在后续的研究中，我们将探索各种方法来减少模型参数的数量，例如通过模型压缩和知识蒸馏等技术，以实现实时生成语音样本，”研究人员表示。“此外，我们还可以尝试同时训练扩散模型、编码器和声码器，以进一步提升语音质量。”

文章来源：https://techxplore.com/news/2024-05-natural-speech.html

标签：

模型语音 ETS

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇国产GPU与AI平台携手突破：摩尔线程与无问芯穹成功实训3B大模型

下一篇马斯克的人工智公司xAI宣布筹集到60亿美元资金

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Sam Altman离职事件时间线

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

ChatGPT

OpenAI旗下AI对话工具

Midjourney

AI图像和插画生成工具，测试测试测试测试测试测测试

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

文心一言

百度推出的基于文心大模型的AI对话互动工具

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市