Stability AI 公司发布了一款名为 AudioSparx 的全新文本到音乐人工智能模型,该模型现在可为其 Stable Audio 产品提供支持。与以前最先进的人工智能音乐生成器相比,这种新模型能够生成高保真、长篇立体声音乐,并具有更多的变化和结构。
AudioSparx 1.0 的核心是一个潜在扩散模型,它能根据文本提示快速生成音乐。与之前只能生成 30 秒音频的迭代版本不同,新模型利用增强的调节系统,以 CD 质量的 44.1kHz 采样率可靠地输出长达 95 秒的立体声音乐。
最重要的是,AudioSparx 1.0 能以竞争对手无法比拟的方式模仿完整歌曲的整体形式和进程。生成的音轨包含可识别的引子、诗句/副歌模式、过渡、乐器中断和结尾。这种音乐性体现了对基本歌曲结构的精妙理解。
除音乐外,AudioSparx 1.0 还是首个能根据文本提示真实生成 44.1kHz 立体声效果的人工智能系统。用户可以请求 "户外森林鸟鸣 "等声音,并接收身临其境的双耳音频。用 "高质量、立体声 "来增强提示音会产生最佳效果。
AudioSparx 1.0 同时擅长可变长度的音乐和声音生成,是将多种音频合成功能整合到单一模型中的杰出代表。这种统一能力源于 Stability AI 的通用训练程序,该程序并不严格区分音乐和非音乐音源。
总体而言,AudioSparx 1.0 所采用的创新技术有望为专业创作人员提供一种辅助音频制作的适应性工具。该模型能够提供广泛、精心安排的音乐和声音,超越了以前的基准,满足了以往只能通过人工制作实现的要求。它彰显了 Stability AI 致力于推动人工智能与人类能力相匹配的决心。