阿里巴巴推出CosyVoice 2:改进的流式语音合成模型

2024年12月19日 由 neo 发表 29 0

语音合成技术虽已取得显著进步,但在实现实时、自然的语音输出方面仍面临诸多挑战。特别是在对流媒体应用这类对响应能力要求极高的场景中,延迟、发音准确性及说话者一致性等问题尤为关键。此外,面对复杂的语言输入,如绕口令或多音字,现有模型往往力不从心。为应对这些难题,阿里巴巴的研究人员推出了增强型流式TTS模型——CosyVoice 2。


Screenshot-2024-12-18-at-4.08.45 PM-1536x902

CosyVoice 2介绍

CosyVoice 2在原有CosyVoice的基础上进行了全面升级,专注于提升语音合成技术。这一增强型模型专为流媒体和离线应用打造,具备更高的灵活性和精确性,适用于文本转语音、交互式语音系统等多种场景。

CosyVoice 2的关键进展包括:

  1. 统一的流式与非流式模式:能够无缝适应各类应用,且不影响性能。
  2. 发音准确性显著提升:发音错误率降低了30%至50%,在复杂语言环境中清晰度更高。
  3. 说话者一致性优化:确保在零样本学习和跨语言合成任务中语音输出稳定。
  4. 先进的指令控制能力:通过自然语言指令,可精确调控语调、风格和口音。

Screenshot-2024-12-18-at-4.09.59 PM-1-1536x823

创新与优势

CosyVoice 2集成了多项技术创新,以提升性能和可用性:

  1. 有限标量量化(FSQ):替代传统矢量量化,优化语音标记代码本使用,提升语义表示和合成质量。
  2. 简化的文本语音架构:依托预训练的大型语言模型(LLMs),消除额外文本编码器需求,简化模型结构,增强跨语言性能。
  3. 块感知的因果流匹配:以最小延迟实现语义和声学特征对齐,适用于实时语音生成。
  4. 丰富的指令数据集:基于超过1500小时的训练数据,精细控制口音、情感和语音风格,实现多样化、富有表现力的语音输出。

性能亮点

对CosyVoice 2的广泛评估展示了其显著优势:

  1. 低延迟与高效性:响应时间低至150毫秒,非常适合语音聊天等实时应用。
  2. 发音质量提升:在处理罕见和复杂语言结构方面表现优异。
  3. 说话者仿真度高:高相似性得分证明了其维持自然性和一致性的能力。
  4. 多语言能力:在日语和韩语基准测试中表现突出,尽管在重叠字符集方面仍有提升空间。
  5. 复杂场景下的稳健性:在绕口令等复杂场景中表现卓越,准确性和清晰度超越以往模型。

Screenshot-2024-12-18-at-4.10.40 PM-1-1536x681Screenshot-2024-12-18-at-4.10.56 PM-1-1536x738

结论

CosyVoice 2在前任基础上实现了深思熟虑的进步,以可扩展的解决方案解决了延迟、准确性和说话者一致性等关键难题。FSQ、块感知流匹配等先进功能的整合,为性能和可用性提供了平衡。尽管在扩大语言支持和改进复杂场景方面仍有提升空间,但CosyVoice 2无疑为语音合成的未来奠定了坚实基础。其整合的离线与流媒体模式确保了高质量、实时的音频生成,适用于各类应用场景。

文章来源:https://www.marktechpost.com/2024/12/18/alibaba-ai-research-releases-cosyvoice-2-an-improved-streaming-speech-synthesis-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消