ElevenLabs推出AI Dubbing：一款让你轻松生成多语言视频和音频的应用

2023年10月11日由 neo 发表 911 0

ElevenLabs是一家成立于一年前的语音克隆和合成初创公司，由前谷歌和Palantir的员工创立，近日宣布推出AI Dubbing，这是一款专业的产品，可以将任何语音，包括长篇内容，翻译成20多种不同的语言。

cfr0z3n_abstract_representation_of_podcast_host_speaking_and_wo_6da3a358-8a00-4735-b154-11c2544fd1c5

这项服务对所有平台用户开放，它提供了一种新的为音频和视频内容配音的方式，并且可以改变一个多年来一直依赖人工的领域。

更重要的是，它可以打破语言障碍，为那些没有资源雇用人工翻译的小型内容创作者提供帮助。

“我们与数百名内容创作者合作测试和迭代了这个功能，以便为他们的内容配音，并使其更容易被更广泛的受众接受，”ElevenLabs的首席执行官兼联合创始人Mati Staniszewski告诉媒体。“我们看到了独立创作者——比如那些制作视频内容和播客的人——一直到电影和电视制作公司的巨大潜力。”

ElevenLabs声称这个功能可以在几分钟内（取决于内容的长度）提供高质量的翻译语音，同时保留说话者的原声，包括他们的情感和语调。

然而，在这个人工智能时代，当几乎每个企业都在寻求利用语言模型来提高效率时，它并不是唯一一个探索语音到语音翻译的公司。

AI Dubbing：它是如何工作的

虽然基于人工智能的翻译涉及多个工作层次，从去噪到语音翻译，但前端的用户不需要经历这些步骤。他们只需要在ElevenLabs上选择AI Dubbing工具，创建一个新项目，选择源语言和目标语言，然后上传内容文件。

一旦内容上传完成，该工具会自动检测说话者的数量，并开始工作，屏幕上会出现一个进度条。这就像互联网上的任何其他转换工具一样。完成后，文件可以下载并使用。

在后台，该工具通过利用ElevenLabs的专有方法来去除背景噪音，区分音乐和噪音与说话者的实际对话。它识别说话者何时说话，保持他们的声音清晰，并使用语音转文字模型将他们说的话转录成他们的原始语言。然后，这些文本被翻译、调整（使长度匹配）并用目标语言发声，以生成期望的语音，同时保留说话者的原始声音特征。

最后，翻译后的语音与最初从文件中移除的音乐和背景噪音重新同步，为使用做好配音输出准备。EvenLabs声称这项工作是其在语音克隆、文本和音频处理以及多语言语音合成方面研究的结晶。

为了从翻译后的文本生成最终的语音，该公司利用了其最新的Multilingual v2模型。它目前支持20多种语言，包括印地语、葡萄牙语、西班牙语、日语、乌克兰语、波兰语和阿拉伯语，为用户提供了广泛的选择来全球化他们的内容。

在这个端到端的界面之前，ElevenLabs提供了单独的语音克隆和文本转语音合成工具。这样，如果有人想把他们的音频内容，比如播客，翻译成另一种语言，他们首先必须在平台上创建自己声音的克隆，同时分别转录和翻译音频。然后，使用翻译后的文本文件和克隆的语音，他们可以从文本转语音模型中生成音频。更不用说，这只适用于没有任何主要背景音乐或噪音的语音。

Staniszewski证实了新的配音功能将对平台上的所有用户开放，但会有一些字符限制，就像文本转语音生成一样。他说，大约一分钟的AI Dubbing通常相当于3,000个字符。

基于人工智能的语音即将到来

虽然ElevenLabs以连续的发展引起了关注，但它并不是唯一一个探索基于人工智能的语音的公司。几周前，微软支持的OpenAI让ChatGPT变得多模态，能够像Alexa一样对语音提示做出对话。

这里也是使用语音转文字和文本转语音模型来转换音频，但这项技术并不对所有人开放。

OpenAI说它正在与一些合作伙伴使用它，以防止滥用这些能力。其中之一是Spotify，它正在帮助其播客将他们的内容翻译成不同的语言，同时保留他们自己的声音。

至于Staniszewski，他说ElevenLabs的AI Dubbing工具的不同之处在于，它可以翻译任何长度、包含任何数量说话者的视频或音频，同时保留他们在多达20种语言中的声音和情感，并提供最高质量的结果。

其他玩家也在基于人工智能的语音和语音合成领域活跃，包括MURF.AI、Play.ht和WellSaid Labs。

最近，Meta也推出了SeamlessM4T，这是一个开源的多语言基础模型，它可以从语音或文本理解近100种语言，并实时生成翻译，无论是输入还是输出或两者兼而有之。

根据Market US的数据，这类工具的全球市场在2022年为12亿美元，在2032年预计将达到近50亿美元，年复合增长率略高于15.40%。

文章来源：https://venturebeat.com/ai/elevenlabs-introduces-ai-dubbing-translating-video-and-audio-into-20-languages/

标签：

人工智能语音合成

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 ChartGen AI：一款免费的人工智能工具，让你轻松创建图表

下一篇百度地图升级为AI原生地图，带来全新的AI向导功能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来