Stability AI发布生成音频模型Stable Audio

2023年10月11日由 daydream 发表 625 0

Stability AI的音频研究实验室Harmonai发布了Stable Audio，这是一种基于文本控制的音频生成扩散模型。Stable Audio经过对19500小时的音频数据进行训练，可以使用一块NVIDIA A100 GPU实时生成44.1kHz质量的音频。

微信截图_20231011111528

与Stability AI的图像生成模型Stable Diffusion类似，Stable Audio以用户提供的文本提示作为输入，描述所需的输出。与Stable Diffusion一样，基于U-Net的扩散模型是该系统的核心。除了文本提示，用户还可以指定所需输出的时间长度（以秒为单位）。该模型可以生成单个乐器、完整的乐团音频，或者更多环境音效，如人群噪音。根据Stability AI的说法：

“Stable Audio代表了Stability AI旗下的生成音频研究实验室Harmonai所取得的尖端音频生成研究成果。我们将不断改进模型架构、数据集和训练流程，以提高输出质量、可控性、推理速度和输出时长。”

最近，在文本和图像的生成式AI方面取得的进展也推动了音乐生成模型的发展。基于GPT-2的OpenAI的MuseNet可以生成一系列MIDI音符，可以使用MIDI合成器软件将其转换为声音。今年，Google的MusicLM和Meta的MusicGen模型的运作方式类似于自回归语言模型，但它们输出的是“音频标记”而不是文本标记。 2022年出现了几种基于扩散的音乐生成模型，包括Harmonai的早期项目Dance Diffusion和Riffusion，该项目使用一个经过精调的Stable Diffusion版本来生成声谱图图像，然后使用经典数字信号处理技术将其转换为声音。

Stable Audio使用一个名为CLAP的预训练模型，将用户的文本提示映射到与音乐特征共享的嵌入空间中，类似于OpenAI的CLIP在Stable Diffusion中的使用方式。这些特征向量以及所需输出长度的嵌入和噪声向量被馈送到970M参数的去噪U-Net模型中，该模型基于一个名为Moûsai的系统。这样就输出了生成的声音的潜在空间表示，然后通过一种称为Descript Audio Codec的变分自动编码器(VAE)将其转换为音频。

Stability AI的首席执行官Emad Mostaque写道：

“这是首个商业许可的音乐模型和平台，团队的工作令人惊叹。这仍处于实验阶段，但预计将快速推进，以便用户可以创造出他们想象中的任何音频，并将自己的数据和更多内容集成进来。”

尽管Stable Audio目前不是开源的，但Harmonai表示他们将发布“基于Stable Audio的开源模型”，以及用于训练自定义模型的代码。Harmonai的Github账户中包含了Moûsai存储库的一个分支。Stable Audio网站允许用户注册免费版，每月最多可以生成20次，但不得用于商业用途。

文章来源：https://www.infoq.com/news/2023/10/stable-audio/

标签：

Stability AI 音频 Stable Audio

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Adobe推出三个AI新模型，图片编辑功能获全面升级

下一篇中兴通讯“星云研发大模型”亮相，助力开发者提升研发效率和质量

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来