Stability AI推出音乐生成工具Stable Studio

2023年09月14日由 daydream 发表 639 0

Stability AI是一家以AI生成视觉效果闻名的公司，最近推出了一款名为Stable Audio的文本到音频生成AI平台。

微信截图_20230914100750

Stable Audio使用扩散模型，这是该公司受欢迎的图像平台Stable Diffusion所采用的AI模型，但这次是使用音频进行训练而不是图像。用户可以使用该平台为任何项目生成歌曲或背景音频。

音频扩散模型通常会生成固定长度的音频，这对于音乐制作来说并不理想，因为歌曲的长度可能不同。因此，Stability AI的新平台允许用户生成不同长度的声音，这就需要公司对音乐进行培训，并在歌曲的开头和结尾时间上添加文本元数据。

以前，在30秒的音频片段上进行训练的模型只能生成30秒的音频，并随机创作歌曲的片段。Stability AI表示，通过对模型进行调整，Stable Audio的用户现在可以更好地控制歌曲的长度。

“Stable Audio代表了Stability AI公司的Harmonai生成音频研究实验室的尖端音频生成研究成果。”该公司在一份声明中表示。“我们将继续改进模型架构、数据集和训练程序，以提高输出质量、可控性、推理速度和输出长度。”

据该公司介绍，Stable Audio是通过训练使用“包含音乐、音效和单声道音轨”的800,000个音频文件数据集，以及来自音乐授权公司AudioSparx的文本元数据实现的。该数据集总计超过19,500个小时的声音。通过与授权公司合作，Stability AI表示已经获得使用受版权保护的素材的许可。

Stable Audio将分为三个定价层：免费版本可让用户每月创建最多20个45秒的音频轨道；专业版售价11.99美元，可创建最多500个90秒长的音频轨道；企业订阅则允许公司根据自己的需求和价格进行定制。使用免费版本的用户不得将使用Stable Audio生成的音频用于商业目的。

文本到音频生成并不是什么新概念，其他生成式AI领域的知名公司也一直在研究这个概念。Meta在8月份发布了AudioCraft，这是一个生成式AI模型套件，可帮助根据提示生成自然音质的环境音、声音和音乐。目前，它只向研究人员和一些音频专业人士提供。谷歌的MusicLM也可以让用户生成音频，但只对研究人员开放。

与其他生成式AI音频平台一样，Stable Audio的潜在用途之一将是为播客或视频制作背景音乐，以提高工作效率。

Stability AI去年宣布了扩展其业务到音频生成、视频和3D图像领域的计划。

文章来源：https://www.theverge.com/2023/9/13/23871635/stability-ai-generative-audio-model-platform

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇未来的人工智能系统可能会有意识

下一篇 Adobe Firefly生成式AI工具正式上线

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来