近日,英伟达公司(Nvidia Corp.)加入了Meta Platforms Inc.、OpenAI和Runway AI Inc.的行列,发布了一款能够根据人类语言提示生成“全新”音乐和音频的生成式人工智能模型。
这款名为Fugatto(全称为Foundational Generative Audio Transformer Opus 1)的模型,据芯片制造商英伟达表示,其独特之处在于能够修改人声并创造出其他模型无法生成的新颖声音。
尽管英伟达以制造驱动AI模型的强大图形处理器而著称,但出于安全方面的考虑,该公司尚未公开发布Fugatto模型。
英伟达指出,Fugatto与其他音乐和音频生成模型的不同之处在于,它能够吸收和修改现有声音。例如,它可以听取钢琴上演奏的音乐片段,并将该声音转换为人类嗓音或小提琴等其他乐器的音符。它还可以录制人类声音,并改变歌唱中的口音和情绪表达。
尽管声称Fugatto的声音完全新颖可能有些误导,因为像所有AI模型一样,其输出也来自使用现有数据源来尝试创建满足用户提示请求的算法。然而,英伟达表示,Fugatto能够通过叠加两种不同的音频效果来创建前所未有的“声音景观”。
英伟达在YouTube上发布的一段视频中展示了Fugatto的功能,如生成火车声音并逐渐转变为管弦乐演奏,或将快乐的声音转变为愤怒的声音等。
英伟达声称,这种功能在之前的音频生成模型中尚未见过。此外,除了基本的提示工程外,Fugatto还为用户提供了更精细的控制来编辑他们创建的声音景观。
英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)向路透社表示,生成式AI有可能像电子合成器那样影响音乐制作。
他表示:“如果我们回顾过去50年的合成音频,现在的音乐听起来与计算机有所不同。生成式AI将为音乐、视频游戏和普通想要创作的人带来新的功能。”
英伟达并非首家尝试生成式AI音乐创作的公司。上个月,Meta推出了一款名为Movie Gen的新模型,可以为生成的短片同时创建视频和声音景观。
关于训练Fugatto所使用的数据,英伟达透露的信息不多,只表示它由来自开源数据的“数百万个音频样本”组成。该公司还证实,与Meta一样,它目前也没有计划将Fugatto提供给AI开发人员。卡坦扎罗表示,他的团队仍在讨论如何安全地向公众发布该模型。