音乐生成是一种利用深度学习模型来创造音乐作品的方法,它可以学习现有音乐的规律和结构。常见的深度学习模型有RNN、LSTM和变换器。本文探讨了一种新颖的音乐生成方法,它使用了非自回归的变换器模型,能够根据音乐语境生成音乐音频。这种方法注重听和应,不同于传统的基于抽象条件的方法。本文还介绍了该领域的最新进展,并对模型架构进行了改进。
来自字节跳动的SAMI研究团队,他们提出了一种非自回归的变换器模型,可以听和应音乐语境,使用了公开的MusicGen模型的Encodec检查点。他们采用了标准指标和音乐信息检索描述符方法来评估模型,包括FAD和MIRDD。他们展示了模型的音频质量和音乐对齐能力,通过客观指标和主观MOS测试进行了验证。
该研究总结了端到端音乐音频生成的最新进展,借鉴了图像和语言处理的技术。它指出了音乐创作中的对齐问题,并对传统的基于抽象条件的方法提出了批评。它提出了一种新的训练方法,使用非自回归的变换器模型来训练能够应音乐语境的模型。它使用了两个条件源,并将问题定义为条件生成。它使用了客观指标、音乐信息检索描述符和听力测试来评估模型。
该方法使用非自回归的变换器模型来生成音乐,将残差向量量化器集成到一个音频编码模型中。它将多个音频通道通过连接嵌入合并为一个序列元素。它使用了一个掩蔽过程,在令牌采样过程中使用无分类器的指导来提高音乐对齐。它使用了FAD和MIRDD来评估模型的性能。它使用了各种指标来生成和比较与真实茎的输出样例。
该研究使用标准指标和音乐信息检索描述符方法来评估生成的模型,包括FAD和MIRDD。它与真实茎的比较显示,模型达到了与最先进的文本条件模型相当的音频质量,并表现出了强烈的音乐一致性。参与音乐培训的参与者进行的MOS测试进一步证明了模型生成合理音乐结果的能力。MIRDD,评估生成的和真实的茎的分布对齐,提供了音乐一致性和对齐的度量。
综上所述,该研究的主要贡献如下: