近年来,文本到语音(TTS)合成技术面临着重重挑战,尤其是在追求高质量语音输出方面。由于语音涉及内容、韵律、音色和声学细节等多重复杂属性,实现零样本TTS(Zero-shot TTS)并维持声音质量、相似性和韵律的和谐统一,一直是业界研究的热点与难点。
微软亚洲研究院携手国内外多所知名高校,成功研发出NaturalSpeech 3这一先进的TTS系统。该系统采用独特的分解扩散模型,通过零样本方式生成高质量语音,突破了传统TTS技术的局限。NaturalSpeech 3的核心在于将语音波形分解为内容、韵律、音色和声学细节的独立子空间,并通过分解扩散模型在每个子空间生成相应的属性。这种分解方法简化了语音的复杂性,提高了学习效率和属性控制的准确性。
TTS研究的最新进展主要体现在四个关键领域:零样本合成、语音表示、生成方法和属性分离。零样本TTS技术的目标是利用先进的数据表示和建模技术,为未见过的说话者生成高质量的语音。在语音表示方面,研究人员已经从传统的波形和梅尔频谱图方法,逐步过渡到更为数据驱动的方法,如离散令牌和连续向量。在生成方法上,自回归(AR)和非自回归(NAR)模型各有千秋,NAR模型在鲁棒性和速度上表现出色,而AR模型则在多样性和表现力上更胜一筹。至于属性分离技术,它旨在通过神经语音编解码器等工具,将内容、韵律和音色等语音属性进行有效分离,以提升合成语音的整体质量。
NaturalSpeech 3的突出优势在于其高质量、相似性和控制性。它利用先进的神经语音编解码器(FACodec)和分解扩散模型,对语音的各个属性进行精细化处理。这一创新方法不仅确保了合成语音的质量和可控性,还在前几个版本的基础上实现了更多样化的场景应用。通过对LibriSpeech和RAVDESS等大型数据集的广泛评估,NaturalSpeech 3在生成质量、说话者相似性和韵律相似性等方面均取得了显著进步。此外,该系统的可扩展性也得到了充分验证,利用更大的数据集和模型大小,其性能得到了进一步提升。
然而,值得注意的是,NaturalSpeech 3目前主要依赖于LibriVox的英语数据,这在一定程度上限制了其声音多样性和多语言能力的发挥。为了克服这一局限,研究人员正计划扩大数据收集范围,以涵盖更多语言和声音类型。
综上所述,NaturalSpeech 3以其独特的分解扩散模型和先进的神经语音编解码技术,为TTS合成领域带来了革命性的突破。随着技术的不断进步和数据的不断扩充,我们有理由相信,未来的TTS系统将能够为我们提供更加自然、逼真的语音体验。