字节跳动人工智能研究推出StemGen:一种新的音乐生成深度学习模型

2023年12月19日 由 neo 发表 613 0

robot_hand_playing_piano-1200x673

音乐生成是一种利用深度学习模型来创造音乐作品的方法,它可以学习现有音乐的规律和结构。常见的深度学习模型有RNN、LSTM和变换器。本文探讨了一种新颖的音乐生成方法,它使用了非自回归的变换器模型,能够根据音乐语境生成音乐音频。这种方法注重听和应,不同于传统的基于抽象条件的方法。本文还介绍了该领域的最新进展,并对模型架构进行了改进。

来自字节跳动的SAMI研究团队,他们提出了一种非自回归的变换器模型,可以听和应音乐语境,使用了公开的MusicGen模型的Encodec检查点。他们采用了标准指标和音乐信息检索描述符方法来评估模型,包括FAD和MIRDD。他们展示了模型的音频质量和音乐对齐能力,通过客观指标和主观MOS测试进行了验证。

该研究总结了端到端音乐音频生成的最新进展,借鉴了图像和语言处理的技术。它指出了音乐创作中的对齐问题,并对传统的基于抽象条件的方法提出了批评。它提出了一种新的训练方法,使用非自回归的变换器模型来训练能够应音乐语境的模型。它使用了两个条件源,并将问题定义为条件生成。它使用了客观指标、音乐信息检索描述符和听力测试来评估模型。

该方法使用非自回归的变换器模型来生成音乐,将残差向量量化器集成到一个音频编码模型中。它将多个音频通道通过连接嵌入合并为一个序列元素。它使用了一个掩蔽过程,在令牌采样过程中使用无分类器的指导来提高音乐对齐。它使用了FAD和MIRDD来评估模型的性能。它使用了各种指标来生成和比较与真实茎的输出样例。

该研究使用标准指标和音乐信息检索描述符方法来评估生成的模型,包括FAD和MIRDD。它与真实茎的比较显示,模型达到了与最先进的文本条件模型相当的音频质量,并表现出了强烈的音乐一致性。参与音乐培训的参与者进行的MOS测试进一步证明了模型生成合理音乐结果的能力。MIRDD,评估生成的和真实的茎的分布对齐,提供了音乐一致性和对齐的度量。

综上所述,该研究的主要贡献如下:

  • 提出了一种新的训练方法,用于生成能够应音乐语境的模型。
  • 提出了一种非自回归的变换器模型,具有两个新颖的改进:多源无分类器指导和因果偏差的迭代解码过程。
  • 在开源和专有数据集上训练了模型,实现了最先进的音频质量。
  • 使用标准指标和音乐信息检索描述符方法验证了模型的音频质量。
  • 使用MOS测试验证了模型生成逼真音乐结果的能力。
文章来源:https://www.marktechpost.com/2023/12/18/bytedance-ai-research-introduces-stemgen-an-end-to-end-music-generation-deep-learning-model-trained-to-listen-to-musical-context-and-respond-appropriately/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消