在掌握了基于机器学习(ML)的语音克隆和合成技术后,这家由前谷歌和Palantir员工创立、成立两年的AI初创公司ElevenLabs,正着手扩大其产品组合,推出新的文本到声音模型。
ElevenLabs 曾预告,该人工智能将允许创作者只需用文字描述自己的想象,就能生成声音效果。在人工智能驱动的数字体验时代,它有望以一种新的方式丰富内容。
这款模型目前尚未公开提供,但ElevenLabs已经通过发布一段时长为一分钟的预告片展示了其能力。该预告片由OpenAI的新产品Sora制作,并通过ElevenLabs自己的AI声音进行了增强。该公司还设置了一个注册页面,并呼吁潜在用户加入该模型的早期访问等待名单。
超越语音的人工智能音效
ElevenLabs 成立于 2022 年,一直致力于研究人工智能,以实现音频和视频内容(从电影到播客)的跨语言和跨地域访问。该公司首次推出了一系列产品,包括文本到语音和语音到语音模型,可以用 29 种不同的语言从给定的内容(文本/音频/视频)中生成人工智能语音,同时提供自然的语音和情感(语音到语音中说话者的原声)。
虽然这两种工具都受到了来自生产内容的企业和个人的广泛采用,但由于Runway、Pika以及最近的OpenAI(Sora)等工具的出现,完全由AI生成的内容也开始崭露头角。这些产品可以根据简单的文本提示生成逼真的AI视频,但它们缺乏的是默认音频。这正是ElevenLabs新模型发挥作用的地方,它允许用户通过描述他们想要的内容来制作声音效果。
当投入使用时,这一产品可以轻松地让AI创作者通过背景声音来增强他们的工作,这些背景声音应该与作品自然融合。声音效果可以是任何事物,从鸣叫的鸟儿到行驶的车辆和喇叭声。甚至还可以是人们在繁忙的街道上交谈、吃饭或行走的声音。
ElevenLabs负责发展的卢克·哈里斯(Luke Harries)在转发的一篇文章中写道:“在ElevenLabs,我们过去只向公众展示过我们的文本到语音模型。然而,我们仍在开发更多的产品。当OpenAI宣布他们的Sora模型时——它可以生成令人难以置信的视频,但没有声音——我们决定提前展示我们新的产品线。”这篇文章还附带了一系列由Sora生成的视频,这些视频通过ElevenLabs模型的AI声音效果进行了增强。
除了人工智能生成的内容外,新模型产生的声音甚至可以应用于文本或任何其他视频(Instagram 短片、商业广告或视频游戏预告片)中需要背景音频的普通语音。至于它的使用方式和质量如何,我们拭目以待。