ElevenLabs即将推出AI音效模型

2024年02月20日由 daydream 发表 346 0

在掌握了基于机器学习（ML）的语音克隆和合成技术后，这家由前谷歌和Palantir员工创立、成立两年的AI初创公司ElevenLabs，正着手扩大其产品组合，推出新的文本到声音模型。

微信截图_20240220100511

ElevenLabs 曾预告，该人工智能将允许创作者只需用文字描述自己的想象，就能生成声音效果。在人工智能驱动的数字体验时代，它有望以一种新的方式丰富内容。

这款模型目前尚未公开提供，但ElevenLabs已经通过发布一段时长为一分钟的预告片展示了其能力。该预告片由OpenAI的新产品Sora制作，并通过ElevenLabs自己的AI声音进行了增强。该公司还设置了一个注册页面，并呼吁潜在用户加入该模型的早期访问等待名单。

微信截图_20240220100547

超越语音的人工智能音效

ElevenLabs 成立于 2022 年，一直致力于研究人工智能，以实现音频和视频内容（从电影到播客）的跨语言和跨地域访问。该公司首次推出了一系列产品，包括文本到语音和语音到语音模型，可以用 29 种不同的语言从给定的内容（文本/音频/视频）中生成人工智能语音，同时提供自然的语音和情感（语音到语音中说话者的原声）。

虽然这两种工具都受到了来自生产内容的企业和个人的广泛采用，但由于Runway、Pika以及最近的OpenAI（Sora）等工具的出现，完全由AI生成的内容也开始崭露头角。这些产品可以根据简单的文本提示生成逼真的AI视频，但它们缺乏的是默认音频。这正是ElevenLabs新模型发挥作用的地方，它允许用户通过描述他们想要的内容来制作声音效果。

当投入使用时，这一产品可以轻松地让AI创作者通过背景声音来增强他们的工作，这些背景声音应该与作品自然融合。声音效果可以是任何事物，从鸣叫的鸟儿到行驶的车辆和喇叭声。甚至还可以是人们在繁忙的街道上交谈、吃饭或行走的声音。

ElevenLabs负责发展的卢克·哈里斯（Luke Harries）在转发的一篇文章中写道：“在ElevenLabs，我们过去只向公众展示过我们的文本到语音模型。然而，我们仍在开发更多的产品。当OpenAI宣布他们的Sora模型时——它可以生成令人难以置信的视频，但没有声音——我们决定提前展示我们新的产品线。”这篇文章还附带了一系列由Sora生成的视频，这些视频通过ElevenLabs模型的AI声音效果进行了增强。

除了人工智能生成的内容外，新模型产生的声音甚至可以应用于文本或任何其他视频（Instagram 短片、商业广告或视频游戏预告片）中需要背景音频的普通语音。至于它的使用方式和质量如何，我们拭目以待。

文章来源：https://venturebeat.com/ai/hear-your-imagination-elevenlabs-to-launch-model-for-ai-sound-effects/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌推出Gemini 1.5：采用MoE架构，支持百万级上下文长度

下一篇 Mistral AI发布新型大型语言模型原型Mistral Next，展现卓越推理能力

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来