Meta发布开源AI音频工具AudioCraft
2023年08月03日 由 Camellia 发表
207703
0
Meta的三个AI模型套件可以根据描述创建音效和音乐。
周三,Meta宣布它正在开源AudioCraft,这是一套用于通过文本提示生成音乐和音频的生成式AI工具。使用这些工具,内容创作者可以输入简单的文本描述来生成复杂的音频场景,作曲旋律,甚至模拟整个虚拟管弦乐队。
AudioCraft由三个核心组件组成:AudioGen,用于生成各种音频效果和音景的工具;MusicGen,可以根据描述创建音乐作品和旋律;以及EnCodec,一种基于神经网络的音频压缩编解码器。
特别是,Meta表示,我们在去年11月首次报道的EnCodec最近已经得到了改进,可以实现“更高质量的音乐生成,同时减少硬件故障”。此外,AudioGen还可以创建狗叫、汽车喇叭声或木地板上脚步声等音频效果。而MusicGen可以根据“流行舞曲、旋律朗朗上口、热带打击乐和欢快的节奏,非常适合沙滩”的描述,创作出各种类型的歌曲。
Meta在其网站上提供了几个音频样本进行评估。这些结果似乎符合他们最先进的标签,但可以说,它们的质量不足以取代专业制作的商业音频效果或音乐。
Meta指出,虽然围绕文本和静态图片的生成式AI模型已经受到了很多关注(并且相对容易让人们在线进行实验),但是生成式音频工具的开发却滞后了。“目前有一些相关研究,但它们非常复杂,不太开放,因此人们无法轻易地进行实验。”他们写道。但他们希望AudioCraft在MIT许可下的发布能够为音频和音乐实验提供可访问的工具,从而为更广泛的社区做出贡献。
Meta表示:“这些模型可供研究目的使用,以进一步推动人们对技术的理解。我们很高兴能够让研究人员和实践者使用它们自己的数据集来训练自己的模型,从而帮助推动该领域的技术进步。”
Meta并非第一家尝试使用AI生成音频和音乐的公司。在一些较为著名的尝试中,OpenAI在2020年推出了Jukebox,谷歌在今年1月推出了MusicLM,去年12月,一个独立研究团队使用Stable Diffusion基础创建了名为Riffusion的文本到音乐生成平台。
这些生成式音频项目并没有像图像合成模型那样引起太多关注,但这并不意味着开发过程不会更加复杂,正如Meta在其网站上指出的:
生成任何类型的高保真音频都需要对不同尺度的复杂信号和模式进行建模。音乐可以说是生成音频最具挑战性的类型,因为它由本地和远程模式组成,从一组音符到具有多个乐器的全局音乐结构。通过使用MIDI或钢琴卷来处理符号化表示方式来生成连贯的音乐,但是这些方法无法完全理解音乐中的表达细微差别和风格元素。最近的一些进展利用自我监督音频表示学习和一些分层或级联模型来生成音乐,通过将原始音频输入到复杂系统中,以捕捉信号中的长程结构并生成高质量音频。但我们知道在这个领域可以做更多的事情。
在关于将未公开和潜在存在不道德的训练材料用于创建图像合成模型(如Stable Diffusion、DALL-E和Midjourney)的争议中,值得注意的是,Meta表示MusicGen是在“由Meta拥有的2万小时音乐或专门为此目的授权的音乐”的基础上进行训练的。这似乎是朝着更具道德性的方向迈出的一步,可能会取悦一些生成式AI的批评者。
有趣的是,我们将看到开源开发者如何选择将这些Meta音频模型集成到他们的工作中。这可能会产生一些有趣且易于使用的生成式音频工具。目前,对于一些了解代码的人来说,可以在GitHub上找到这三个AudioCraft工具的模型权重和代码。
来源:https://arstechnica.com/information-technology/2023/08/open-source-audiocraft-can-make-dogs-bark-and-symphonies-soar-from-text-using-ai/