Stability AI是一家以AI生成视觉效果闻名的公司,最近推出了一款名为Stable Audio的文本到音频生成AI平台。
Stable Audio使用扩散模型,这是该公司受欢迎的图像平台Stable Diffusion所采用的AI模型,但这次是使用音频进行训练而不是图像。用户可以使用该平台为任何项目生成歌曲或背景音频。
音频扩散模型通常会生成固定长度的音频,这对于音乐制作来说并不理想,因为歌曲的长度可能不同。因此,Stability AI的新平台允许用户生成不同长度的声音,这就需要公司对音乐进行培训,并在歌曲的开头和结尾时间上添加文本元数据。
以前,在30秒的音频片段上进行训练的模型只能生成30秒的音频,并随机创作歌曲的片段。Stability AI表示,通过对模型进行调整,Stable Audio的用户现在可以更好地控制歌曲的长度。
“Stable Audio代表了Stability AI公司的Harmonai生成音频研究实验室的尖端音频生成研究成果。”该公司在一份声明中表示。“我们将继续改进模型架构、数据集和训练程序,以提高输出质量、可控性、推理速度和输出长度。”
据该公司介绍,Stable Audio是通过训练使用“包含音乐、音效和单声道音轨”的800,000个音频文件数据集,以及来自音乐授权公司AudioSparx的文本元数据实现的。该数据集总计超过19,500个小时的声音。通过与授权公司合作,Stability AI表示已经获得使用受版权保护的素材的许可。
Stable Audio将分为三个定价层:免费版本可让用户每月创建最多20个45秒的音频轨道;专业版售价11.99美元,可创建最多500个90秒长的音频轨道;企业订阅则允许公司根据自己的需求和价格进行定制。使用免费版本的用户不得将使用Stable Audio生成的音频用于商业目的。
文本到音频生成并不是什么新概念,其他生成式AI领域的知名公司也一直在研究这个概念。Meta在8月份发布了AudioCraft,这是一个生成式AI模型套件,可帮助根据提示生成自然音质的环境音、声音和音乐。目前,它只向研究人员和一些音频专业人士提供。谷歌的MusicLM也可以让用户生成音频,但只对研究人员开放。
与其他生成式AI音频平台一样,Stable Audio的潜在用途之一将是为播客或视频制作背景音乐,以提高工作效率。
Stability AI去年宣布了扩展其业务到音频生成、视频和3D图像领域的计划。