Stability AI推出音乐生成工具Stable Studio

2023年09月14日 由 daydream 发表 422 0

Stability AI是一家以AI生成视觉效果闻名的公司,最近推出了一款名为Stable Audio的文本到音频生成AI平台。


微信截图_20230914100750


Stable Audio使用扩散模型,这是该公司受欢迎的图像平台Stable Diffusion所采用的AI模型,但这次是使用音频进行训练而不是图像。用户可以使用该平台为任何项目生成歌曲或背景音频。


音频扩散模型通常会生成固定长度的音频,这对于音乐制作来说并不理想,因为歌曲的长度可能不同。因此,Stability AI的新平台允许用户生成不同长度的声音,这就需要公司对音乐进行培训,并在歌曲的开头和结尾时间上添加文本元数据。


以前,在30秒的音频片段上进行训练的模型只能生成30秒的音频,并随机创作歌曲的片段。Stability AI表示,通过对模型进行调整,Stable Audio的用户现在可以更好地控制歌曲的长度。


“Stable Audio代表了Stability AI公司的Harmonai生成音频研究实验室的尖端音频生成研究成果。”该公司在一份声明中表示。“我们将继续改进模型架构、数据集和训练程序,以提高输出质量、可控性、推理速度和输出长度。”


据该公司介绍,Stable Audio是通过训练使用“包含音乐、音效和单声道音轨”的800,000个音频文件数据集,以及来自音乐授权公司AudioSparx的文本元数据实现的。该数据集总计超过19,500个小时的声音。通过与授权公司合作,Stability AI表示已经获得使用受版权保护的素材的许可。


Stable Audio将分为三个定价层:免费版本可让用户每月创建最多20个45秒的音频轨道;专业版售价11.99美元,可创建最多500个90秒长的音频轨道;企业订阅则允许公司根据自己的需求和价格进行定制。使用免费版本的用户不得将使用Stable Audio生成的音频用于商业目的。


文本到音频生成并不是什么新概念,其他生成式AI领域的知名公司也一直在研究这个概念。Meta在8月份发布了AudioCraft,这是一个生成式AI模型套件,可帮助根据提示生成自然音质的环境音、声音和音乐。目前,它只向研究人员和一些音频专业人士提供。谷歌的MusicLM也可以让用户生成音频,但只对研究人员开放。


与其他生成式AI音频平台一样,Stable Audio的潜在用途之一将是为播客或视频制作背景音乐,以提高工作效率。


Stability AI去年宣布了扩展其业务到音频生成、视频和3D图像领域的计划。

文章来源:https://www.theverge.com/2023/9/13/23871635/stability-ai-generative-audio-model-platform
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消