ElevenLabs是一家成立于一年前的语音克隆和合成初创公司,由前谷歌和Palantir的员工创立,近日宣布推出AI Dubbing,这是一款专业的产品,可以将任何语音,包括长篇内容,翻译成20多种不同的语言。
这项服务对所有平台用户开放,它提供了一种新的为音频和视频内容配音的方式,并且可以改变一个多年来一直依赖人工的领域。
更重要的是,它可以打破语言障碍,为那些没有资源雇用人工翻译的小型内容创作者提供帮助。
“我们与数百名内容创作者合作测试和迭代了这个功能,以便为他们的内容配音,并使其更容易被更广泛的受众接受,”ElevenLabs的首席执行官兼联合创始人Mati Staniszewski告诉媒体。“我们看到了独立创作者——比如那些制作视频内容和播客的人——一直到电影和电视制作公司的巨大潜力。”
ElevenLabs声称这个功能可以在几分钟内(取决于内容的长度)提供高质量的翻译语音,同时保留说话者的原声,包括他们的情感和语调。
然而,在这个人工智能时代,当几乎每个企业都在寻求利用语言模型来提高效率时,它并不是唯一一个探索语音到语音翻译的公司。
AI Dubbing:它是如何工作的
虽然基于人工智能的翻译涉及多个工作层次,从去噪到语音翻译,但前端的用户不需要经历这些步骤。他们只需要在ElevenLabs上选择AI Dubbing工具,创建一个新项目,选择源语言和目标语言,然后上传内容文件。
一旦内容上传完成,该工具会自动检测说话者的数量,并开始工作,屏幕上会出现一个进度条。这就像互联网上的任何其他转换工具一样。完成后,文件可以下载并使用。
在后台,该工具通过利用ElevenLabs的专有方法来去除背景噪音,区分音乐和噪音与说话者的实际对话。它识别说话者何时说话,保持他们的声音清晰,并使用语音转文字模型将他们说的话转录成他们的原始语言。然后,这些文本被翻译、调整(使长度匹配)并用目标语言发声,以生成期望的语音,同时保留说话者的原始声音特征。
最后,翻译后的语音与最初从文件中移除的音乐和背景噪音重新同步,为使用做好配音输出准备。EvenLabs声称这项工作是其在语音克隆、文本和音频处理以及多语言语音合成方面研究的结晶。
为了从翻译后的文本生成最终的语音,该公司利用了其最新的Multilingual v2模型。它目前支持20多种语言,包括印地语、葡萄牙语、西班牙语、日语、乌克兰语、波兰语和阿拉伯语,为用户提供了广泛的选择来全球化他们的内容。
在这个端到端的界面之前,ElevenLabs提供了单独的语音克隆和文本转语音合成工具。这样,如果有人想把他们的音频内容,比如播客,翻译成另一种语言,他们首先必须在平台上创建自己声音的克隆,同时分别转录和翻译音频。然后,使用翻译后的文本文件和克隆的语音,他们可以从文本转语音模型中生成音频。更不用说,这只适用于没有任何主要背景音乐或噪音的语音。
Staniszewski证实了新的配音功能将对平台上的所有用户开放,但会有一些字符限制,就像文本转语音生成一样。他说,大约一分钟的AI Dubbing通常相当于3,000个字符。
基于人工智能的语音即将到来
虽然ElevenLabs以连续的发展引起了关注,但它并不是唯一一个探索基于人工智能的语音的公司。几周前,微软支持的OpenAI让ChatGPT变得多模态,能够像Alexa一样对语音提示做出对话。
这里也是使用语音转文字和文本转语音模型来转换音频,但这项技术并不对所有人开放。
OpenAI说它正在与一些合作伙伴使用它,以防止滥用这些能力。其中之一是Spotify,它正在帮助其播客将他们的内容翻译成不同的语言,同时保留他们自己的声音。
至于Staniszewski,他说ElevenLabs的AI Dubbing工具的不同之处在于,它可以翻译任何长度、包含任何数量说话者的视频或音频,同时保留他们在多达20种语言中的声音和情感,并提供最高质量的结果。
其他玩家也在基于人工智能的语音和语音合成领域活跃,包括MURF.AI、Play.ht和WellSaid Labs。
最近,Meta也推出了SeamlessM4T,这是一个开源的多语言基础模型,它可以从语音或文本理解近100种语言,并实时生成翻译,无论是输入还是输出或两者兼而有之。
根据Market US的数据,这类工具的全球市场在2022年为12亿美元,在2032年预计将达到近50亿美元,年复合增长率略高于15.40%。