ElevenLabs是一家成立一年的初创公司,利用机器学习技术进行语音克隆和合成。如今,该公司宣布通过推出支持30种语言的新的文本转语音模型来扩展其平台。
此次扩展标志着该平台正式退出测试阶段,准备为企业和个人用户提供定制其内容以适应全球受众的服务。这一消息发出时间距离ElevenLabs完成价值近1亿美元的1900万美元A轮融资已经有一个多月了。
该公司的首席执行官兼联合创始人Mati Staniszewski在一份声明中表示:“ElevenLabs的初衷是让所有内容都能以任何语言和任何声音普遍可用。通过发布Eleven Multilingual v2,我们离实现这个梦想又近了一步,让人类质量的AI声音能在每种方言中使用。"
他还补充道:"最终,我们希望借助人工智能的帮助,覆盖更多的语言和声音,消除内容的语言障碍。"
Eleven Multilingual v2的使用方法
ElevenLabs提供了两个主要的语音AI产品——语音合成和VoiceLab。
语音合成是一个从文本输入生成自然说话声音的合成工具。VoiceLab则是一种类似的附加工具,使用户能够克隆自己的声音或者采样声音参数生成全新的合成声音,以与合成工具一起使用。
用户创建了自己的定制声音后,可以将其插入到文本转语音工具中,轻松将任何短篇或长篇内容转换为自己所选的语音。作为另一种选择,他们还可以使用该公司提供的一些预设AI声音,或者使用社区上创建和共享的声音。
在早期,合成工具只能以英语生成语音。后来,它扩展到了Eleven Multilingual版本1,可以使用文本输入和AI声音在六种语言(英语、波兰语、德语、西班牙语、法语、意大利语、葡萄牙语和印地语)中生成语音。
现在,随着Eleven Multilingual版本2的发布,该产品可以在另外30种语言中合成语音。这包括韩语、荷兰语、土耳其语、瑞典语、印度尼西亚语、越南语、菲律宾语、乌克兰语、希腊语、捷克语、芬兰语、罗马尼亚语、丹麦语、保加利亚语、马来语、匈牙利语、挪威语、斯洛伐克语、克罗地亚语、古典阿拉伯语和泰米尔语。
这意味着一个人可以克隆自己的声音,并用它来在几十种语言中产生语音,面向不同的市场。
根据ElevenLabs的说法,用户只需输入自己选择语言的文本,选择他们想要的声音(预设、合成或克隆),并调整一些语音参数。模型将自动识别所使用的语言,并根据设置的参数生成语音。它还将保持所选择的声音在所有语言中的独特特点,包括原始口音。
Staniszewski告诉VentureBeat:“我们的模型能够理解词语之间的关系,并根据语境调整语音的表达('语境化'文本转语音)。因为模型中没有硬编码的声音特征,它可以在生成AI声音时稳健地预测数千个声音特征。这意味着ElevenLabs的模型可以考虑到每个生成语句周围的文本以保持适当的流畅性,而不是单独生成每个语句,这可能会导致声音听起来机械。"
文本转语音工具的广泛应用
自推出测试版以来,ElevenLabs已经引起了企业和创作者的兴趣,并声称已经在全球注册了超过一百万名用户。最新的发布预计不仅会推动该平台的用户基数,还会增加其每天生成的内容量。
Staniszewski解释道:“我们有许多企业客户使用我们的产品,他们的用例各不相同:从为视频游戏中的角色配音到为客户服务化身提供声音,从录制有声读物到为视力受损者创建内容。"
最近,该公司与ArXiv合作,为其所有论文发布音频版本以增加可访问性。它还与Storytel合作,为有声读物提供额外的AI声音选择,与人类解说员一起。在未来的某个时候,CEO预计它也可以使将整部电影配音成多种语言变得完全无缝,同时保留原始演员的口音和情感。
未来的规划
作为实现这一目标的一部分,ElevenLabs计划通过添加更多的语言和功能来扩展其产品,包括一个项目工具,使用户能够更简单地组织和编辑他们的长文内容。根据Staniszewski的说法,它将为从长文内容生成语音添加“谷歌文档”级别的简便性。
他指出:"到今年年底,我们还计划发布AI配音工具的测试版,使用户能够在保留原始讲话者的声音的同时,立即将一种语言的语音转换为另一种语言。"
在AI驱动的语音生成领域,ElevenLabs与 MURF.AI、Play.ht 和WellSaid Labs等竞争对手展开竞争。根据Market US的数据,这种工具的全球市场价值在2022年达到12亿美元,并预计到2032年将接近50亿美元,年复合增长率略高于15.40%。