阿里巴巴推出CosyVoice 2:改进的流式语音合成模型
2024年12月19日 由 neo 发表
310
0
语音合成技术虽已取得显著进步,但在实现实时、自然的语音输出方面仍面临诸多挑战。特别是在对流媒体应用这类对响应能力要求极高的场景中,延迟、发音准确性及说话者一致性等问题尤为关键。此外,面对复杂的语言输入,如绕口令或多音字,现有模型往往力不从心。为应对这些难题,阿里巴巴的研究人员推出了增强型流式TTS模型——CosyVoice 2。
CosyVoice 2介绍
CosyVoice 2在原有CosyVoice的基础上进行了全面升级,专注于提升语音合成技术。这一增强型模型专为流媒体和离线应用打造,具备更高的灵活性和精确性,适用于文本转语音、交互式语音系统等多种场景。
CosyVoice 2的关键进展包括:
- 统一的流式与非流式模式:能够无缝适应各类应用,且不影响性能。
- 发音准确性显著提升:发音错误率降低了30%至50%,在复杂语言环境中清晰度更高。
- 说话者一致性优化:确保在零样本学习和跨语言合成任务中语音输出稳定。
- 先进的指令控制能力:通过自然语言指令,可精确调控语调、风格和口音。
创新与优势
CosyVoice 2集成了多项技术创新,以提升性能和可用性:
- 有限标量量化(FSQ):替代传统矢量量化,优化语音标记代码本使用,提升语义表示和合成质量。
- 简化的文本语音架构:依托预训练的大型语言模型(LLMs),消除额外文本编码器需求,简化模型结构,增强跨语言性能。
- 块感知的因果流匹配:以最小延迟实现语义和声学特征对齐,适用于实时语音生成。
- 丰富的指令数据集:基于超过1500小时的训练数据,精细控制口音、情感和语音风格,实现多样化、富有表现力的语音输出。
性能亮点
对CosyVoice 2的广泛评估展示了其显著优势:
- 低延迟与高效性:响应时间低至150毫秒,非常适合语音聊天等实时应用。
- 发音质量提升:在处理罕见和复杂语言结构方面表现优异。
- 说话者仿真度高:高相似性得分证明了其维持自然性和一致性的能力。
- 多语言能力:在日语和韩语基准测试中表现突出,尽管在重叠字符集方面仍有提升空间。
- 复杂场景下的稳健性:在绕口令等复杂场景中表现卓越,准确性和清晰度超越以往模型。
结论
CosyVoice 2在前任基础上实现了深思熟虑的进步,以可扩展的解决方案解决了延迟、准确性和说话者一致性等关键难题。FSQ、块感知流匹配等先进功能的整合,为性能和可用性提供了平衡。尽管在扩大语言支持和改进复杂场景方面仍有提升空间,但CosyVoice 2无疑为语音合成的未来奠定了坚实基础。其整合的离线与流媒体模式确保了高质量、实时的音频生成,适用于各类应用场景。
文章来源:https://www.marktechpost.com/2024/12/18/alibaba-ai-research-releases-cosyvoice-2-an-improved-streaming-speech-synthesis-model/