阿里巴巴推出CosyVoice 2：改进的流式语音合成模型

2024年12月19日由 neo 发表 853 0

语音合成技术虽已取得显著进步，但在实现实时、自然的语音输出方面仍面临诸多挑战。特别是在对流媒体应用这类对响应能力要求极高的场景中，延迟、发音准确性及说话者一致性等问题尤为关键。此外，面对复杂的语言输入，如绕口令或多音字，现有模型往往力不从心。为应对这些难题，阿里巴巴的研究人员推出了增强型流式TTS模型——CosyVoice 2。

Screenshot-2024-12-18-at-4.08.45 PM-1536x902

CosyVoice 2介绍

CosyVoice 2在原有CosyVoice的基础上进行了全面升级，专注于提升语音合成技术。这一增强型模型专为流媒体和离线应用打造，具备更高的灵活性和精确性，适用于文本转语音、交互式语音系统等多种场景。

CosyVoice 2的关键进展包括：

统一的流式与非流式模式：能够无缝适应各类应用，且不影响性能。
发音准确性显著提升：发音错误率降低了30%至50%，在复杂语言环境中清晰度更高。
说话者一致性优化：确保在零样本学习和跨语言合成任务中语音输出稳定。
先进的指令控制能力：通过自然语言指令，可精确调控语调、风格和口音。

Screenshot-2024-12-18-at-4.09.59 PM-1-1536x823

创新与优势

CosyVoice 2集成了多项技术创新，以提升性能和可用性：

有限标量量化（FSQ）：替代传统矢量量化，优化语音标记代码本使用，提升语义表示和合成质量。
简化的文本语音架构：依托预训练的大型语言模型（LLMs），消除额外文本编码器需求，简化模型结构，增强跨语言性能。
块感知的因果流匹配：以最小延迟实现语义和声学特征对齐，适用于实时语音生成。
丰富的指令数据集：基于超过1500小时的训练数据，精细控制口音、情感和语音风格，实现多样化、富有表现力的语音输出。

性能亮点

对CosyVoice 2的广泛评估展示了其显著优势：

低延迟与高效性：响应时间低至150毫秒，非常适合语音聊天等实时应用。
发音质量提升：在处理罕见和复杂语言结构方面表现优异。
说话者仿真度高：高相似性得分证明了其维持自然性和一致性的能力。
多语言能力：在日语和韩语基准测试中表现突出，尽管在重叠字符集方面仍有提升空间。
复杂场景下的稳健性：在绕口令等复杂场景中表现卓越，准确性和清晰度超越以往模型。

Screenshot-2024-12-18-at-4.10.40 PM-1-1536x681

结论

CosyVoice 2在前任基础上实现了深思熟虑的进步，以可扩展的解决方案解决了延迟、准确性和说话者一致性等关键难题。FSQ、块感知流匹配等先进功能的整合，为性能和可用性提供了平衡。尽管在扩大语言支持和改进复杂场景方面仍有提升空间，但CosyVoice 2无疑为语音合成的未来奠定了坚实基础。其整合的离线与流媒体模式确保了高质量、实时的音频生成，适用于各类应用场景。

文章来源：https://www.marktechpost.com/2024/12/18/alibaba-ai-research-releases-cosyvoice-2-an-improved-streaming-speech-synthesis-model/

标签：

阿里巴巴 CosyVoice AI语音

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 aiOla发布Whisper-NER：引领语音识别技术的开源AI模型

下一篇 100万电商客服岗将何去何从？AI的崛起引发行业大讨论

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来