Hume推出Octave TTS：可根据定制的情绪创建自定义AI语音

2025年02月27日由 neo 发表 1993 0

在数字通信领域快速发展的背景下，传统的文本转语音（TTS）系统往往难以捕捉人类语言的情感和细微差别，常常以平淡、单调的语调“朗读”文本，缺乏使人类语言生动迷人的微妙语调和情感线索。这一局限性给开发者和内容创作者带来了挑战，他们渴望以真正触动人心的方式传递信息。因此，业界长久以来就渴望着一种能够理解上下文和情感，而不仅仅是简单地将文本转化为语音的TTS系统，这也为探索语音合成的新方法开辟了道路。

Hume推出的Octave TTS在文本转语音领域迈出了重要的一步。与早期的机械化语音生成模型不同，Octave致力于理解所处理文本背后的上下文。它不仅仅局限于字面上的文字到音频的转换，更注重传达意义、情感和风格的微妙差异。无论是需要一丝讽刺、轻声细语，还是坚定的声明，Octave都能灵活调整其输出，以更贴切地反映预期的语气，从而生成适合各种场景的定制AI声音，从简单叙述到角色鲜明的故事讲述都能游刃有余。

在技术细节方面，Octave TTS建立在专门为语音合成训练的最新大型语言模型（LLM）基础之上。这一强大的技术支撑使系统能够预测应该说出的词汇，并进一步预测其表现方式，包括节奏、音色和韵律。Octave的一个显著亮点是其“语音设计”功能，用户只需提供一个简单的脚本或描述性提示，就能生成符合特定角色或人物的声音。例如，用户可以要求一个类似耐心辅导员或权威叙述者的声音，Octave会相应地做出调整。

除了语音设计功能，Octave还提供了“表演指示”，允许用户微调语音段落的情感表达。同一句话可以根据给定的指示以多种风格呈现，如轻声低语、平静或略带轻蔑等。这种灵活性极大地扩展了Octave TTS的实际应用范围，使其在教育、娱乐和客户服务等多个领域都能大放异彩。展望未来，Hume团队还计划推出语音克隆功能，用户只需提供一个简短的音频样本，即可复制特定声音。

Screenshot-2025-02-26-at-3.11.45 PM-1-1536x866

在数据见解和对比评估方面，Octave TTS的开发和评估工作始终聚焦于技术价值和实际应用。在一项内部研究中，180名人类评估员对Octave与TTS领域的一家知名竞争对手进行了比较。参与者基于音频质量、自然度和与所提供声音描述的匹配度，对120个不同的提示进行了评估。结果显示，在约71.6%的试验中，受试者更倾向于Octave的音频质量；在约51.7%的案例中，更偏好其自然度；在约57.7%的评估中，更欣赏其与预期描述相匹配的准确性。

这些结果表明，Octave不仅能够产生清晰且令人愉悦的音频，还能更好地满足用户的风格和情感预期。结合这些内部测试，Hume启动了Expressive TTS Arena这一公共倡议，旨在促进对表达性语音合成的更广泛评估。该平台邀请社区成员使用更长、更细致入微的文本样本测试和比较各种TTS系统，从而帮助不断改进像Octave这样的模型性能。

Screenshot-2025-02-26-at-3.12.00 PM-1-1536x865

综上所述，Hume的Octave TTS通过关注语音生成中的上下文、情感和灵活性，相较于传统的文本转语音系统展现出了显著优势。其解读和传递细微情感线索的能力为用户带来了更自然、更引人入胜的听觉体验，使其成为多种应用场景下的得力助手。Octave基于先进大型语言模型的技术基础，确保了生成的语音不仅清晰准确，还能深刻反映文本背后的深层含义。内部评估和公共测试倡议进一步强调了Octave在表达性TTS领域设定新标准的潜力，其重点在于为开发者和最终用户带来实实在在的益处。随着系统的不断发展，未来如语音克隆等功能的推出，Hume将继续致力于以技术上严谨且体察人类交流细微差别的方式，推动AI语音技术的不断革新。

文章来源：https://www.marktechpost.com/2025/02/26/hume-introduces-octave-tts-a-new-text-to-speech-model-that-creates-custom-ai-voices-with-tailored-emotions/

标签：

人工智能 TTS

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 ElevenLabs推出独立语音转文字模型Scribe

下一篇 Podcastle推出AI文本转语音模型Asyncflow v1.0

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来