Hume推出Octave TTS:可根据定制的情绪创建自定义AI语音

2025年02月27日 由 neo 发表 1777 0

在数字通信领域快速发展的背景下,传统的文本转语音(TTS)系统往往难以捕捉人类语言的情感和细微差别,常常以平淡、单调的语调“朗读”文本,缺乏使人类语言生动迷人的微妙语调和情感线索。这一局限性给开发者和内容创作者带来了挑战,他们渴望以真正触动人心的方式传递信息。因此,业界长久以来就渴望着一种能够理解上下文和情感,而不仅仅是简单地将文本转化为语音的TTS系统,这也为探索语音合成的新方法开辟了道路。

Hume推出的Octave TTS在文本转语音领域迈出了重要的一步。与早期的机械化语音生成模型不同,Octave致力于理解所处理文本背后的上下文。它不仅仅局限于字面上的文字到音频的转换,更注重传达意义、情感和风格的微妙差异。无论是需要一丝讽刺、轻声细语,还是坚定的声明,Octave都能灵活调整其输出,以更贴切地反映预期的语气,从而生成适合各种场景的定制AI声音,从简单叙述到角色鲜明的故事讲述都能游刃有余。

在技术细节方面,Octave TTS建立在专门为语音合成训练的最新大型语言模型(LLM)基础之上。这一强大的技术支撑使系统能够预测应该说出的词汇,并进一步预测其表现方式,包括节奏、音色和韵律。Octave的一个显著亮点是其“语音设计”功能,用户只需提供一个简单的脚本或描述性提示,就能生成符合特定角色或人物的声音。例如,用户可以要求一个类似耐心辅导员或权威叙述者的声音,Octave会相应地做出调整。

除了语音设计功能,Octave还提供了“表演指示”,允许用户微调语音段落的情感表达。同一句话可以根据给定的指示以多种风格呈现,如轻声低语、平静或略带轻蔑等。这种灵活性极大地扩展了Octave TTS的实际应用范围,使其在教育、娱乐和客户服务等多个领域都能大放异彩。展望未来,Hume团队还计划推出语音克隆功能,用户只需提供一个简短的音频样本,即可复制特定声音。

Screenshot-2025-02-26-at-3.11.45 PM-1-1536x866

在数据见解和对比评估方面,Octave TTS的开发和评估工作始终聚焦于技术价值和实际应用。在一项内部研究中,180名人类评估员对Octave与TTS领域的一家知名竞争对手进行了比较。参与者基于音频质量、自然度和与所提供声音描述的匹配度,对120个不同的提示进行了评估。结果显示,在约71.6%的试验中,受试者更倾向于Octave的音频质量;在约51.7%的案例中,更偏好其自然度;在约57.7%的评估中,更欣赏其与预期描述相匹配的准确性。

这些结果表明,Octave不仅能够产生清晰且令人愉悦的音频,还能更好地满足用户的风格和情感预期。结合这些内部测试,Hume启动了Expressive TTS Arena这一公共倡议,旨在促进对表达性语音合成的更广泛评估。该平台邀请社区成员使用更长、更细致入微的文本样本测试和比较各种TTS系统,从而帮助不断改进像Octave这样的模型性能。

Screenshot-2025-02-26-at-3.12.00 PM-1-1536x865

综上所述,Hume的Octave TTS通过关注语音生成中的上下文、情感和灵活性,相较于传统的文本转语音系统展现出了显著优势。其解读和传递细微情感线索的能力为用户带来了更自然、更引人入胜的听觉体验,使其成为多种应用场景下的得力助手。Octave基于先进大型语言模型的技术基础,确保了生成的语音不仅清晰准确,还能深刻反映文本背后的深层含义。内部评估和公共测试倡议进一步强调了Octave在表达性TTS领域设定新标准的潜力,其重点在于为开发者和最终用户带来实实在在的益处。随着系统的不断发展,未来如语音克隆等功能的推出,Hume将继续致力于以技术上严谨且体察人类交流细微差别的方式,推动AI语音技术的不断革新。

文章来源:https://www.marktechpost.com/2025/02/26/hume-introduces-octave-tts-a-new-text-to-speech-model-that-creates-custom-ai-voices-with-tailored-emotions/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消