Stability AI的音频研究实验室Harmonai发布了Stable Audio,这是一种基于文本控制的音频生成扩散模型。Stable Audio经过对19500小时的音频数据进行训练,可以使用一块NVIDIA A100 GPU实时生成44.1kHz质量的音频。
与Stability AI的图像生成模型Stable Diffusion类似,Stable Audio以用户提供的文本提示作为输入,描述所需的输出。与Stable Diffusion一样,基于U-Net的扩散模型是该系统的核心。除了文本提示,用户还可以指定所需输出的时间长度(以秒为单位)。该模型可以生成单个乐器、完整的乐团音频,或者更多环境音效,如人群噪音。根据Stability AI的说法:
“Stable Audio代表了Stability AI旗下的生成音频研究实验室Harmonai所取得的尖端音频生成研究成果。我们将不断改进模型架构、数据集和训练流程,以提高输出质量、可控性、推理速度和输出时长。”
最近,在文本和图像的生成式AI方面取得的进展也推动了音乐生成模型的发展。基于GPT-2的OpenAI的MuseNet可以生成一系列MIDI音符,可以使用MIDI合成器软件将其转换为声音。今年,Google的MusicLM和Meta的MusicGen模型的运作方式类似于自回归语言模型,但它们输出的是“音频标记”而不是文本标记。 2022年出现了几种基于扩散的音乐生成模型,包括Harmonai的早期项目Dance Diffusion和Riffusion,该项目使用一个经过精调的Stable Diffusion版本来生成声谱图图像,然后使用经典数字信号处理技术将其转换为声音。
Stable Audio使用一个名为CLAP的预训练模型,将用户的文本提示映射到与音乐特征共享的嵌入空间中,类似于OpenAI的CLIP在Stable Diffusion中的使用方式。这些特征向量以及所需输出长度的嵌入和噪声向量被馈送到970M参数的去噪U-Net模型中,该模型基于一个名为Moûsai的系统。这样就输出了生成的声音的潜在空间表示,然后通过一种称为Descript Audio Codec的变分自动编码器(VAE)将其转换为音频。
Stability AI的首席执行官Emad Mostaque写道:
“这是首个商业许可的音乐模型和平台,团队的工作令人惊叹。这仍处于实验阶段,但预计将快速推进,以便用户可以创造出他们想象中的任何音频,并将自己的数据和更多内容集成进来。”
尽管Stable Audio目前不是开源的,但Harmonai表示他们将发布“基于Stable Audio的开源模型”,以及用于训练自定义模型的代码。Harmonai的Github账户中包含了Moûsai存储库的一个分支。Stable Audio网站允许用户注册免费版,每月最多可以生成20次,但不得用于商业用途。