字节跳动人工智能研究推出StemGen：一种新的音乐生成深度学习模型

2023年12月19日由 neo 发表 801 0

robot_hand_playing_piano-1200x673

音乐生成是一种利用深度学习模型来创造音乐作品的方法，它可以学习现有音乐的规律和结构。常见的深度学习模型有RNN、LSTM和变换器。本文探讨了一种新颖的音乐生成方法，它使用了非自回归的变换器模型，能够根据音乐语境生成音乐音频。这种方法注重听和应，不同于传统的基于抽象条件的方法。本文还介绍了该领域的最新进展，并对模型架构进行了改进。

来自字节跳动的SAMI研究团队，他们提出了一种非自回归的变换器模型，可以听和应音乐语境，使用了公开的MusicGen模型的Encodec检查点。他们采用了标准指标和音乐信息检索描述符方法来评估模型，包括FAD和MIRDD。他们展示了模型的音频质量和音乐对齐能力，通过客观指标和主观MOS测试进行了验证。

该研究总结了端到端音乐音频生成的最新进展，借鉴了图像和语言处理的技术。它指出了音乐创作中的对齐问题，并对传统的基于抽象条件的方法提出了批评。它提出了一种新的训练方法，使用非自回归的变换器模型来训练能够应音乐语境的模型。它使用了两个条件源，并将问题定义为条件生成。它使用了客观指标、音乐信息检索描述符和听力测试来评估模型。

该方法使用非自回归的变换器模型来生成音乐，将残差向量量化器集成到一个音频编码模型中。它将多个音频通道通过连接嵌入合并为一个序列元素。它使用了一个掩蔽过程，在令牌采样过程中使用无分类器的指导来提高音乐对齐。它使用了FAD和MIRDD来评估模型的性能。它使用了各种指标来生成和比较与真实茎的输出样例。

该研究使用标准指标和音乐信息检索描述符方法来评估生成的模型，包括FAD和MIRDD。它与真实茎的比较显示，模型达到了与最先进的文本条件模型相当的音频质量，并表现出了强烈的音乐一致性。参与音乐培训的参与者进行的MOS测试进一步证明了模型生成合理音乐结果的能力。MIRDD，评估生成的和真实的茎的分布对齐，提供了音乐一致性和对齐的度量。

综上所述，该研究的主要贡献如下：

提出了一种新的训练方法，用于生成能够应音乐语境的模型。
提出了一种非自回归的变换器模型，具有两个新颖的改进：多源无分类器指导和因果偏差的迭代解码过程。
在开源和专有数据集上训练了模型，实现了最先进的音频质量。
使用标准指标和音乐信息检索描述符方法验证了模型的音频质量。
使用MOS测试验证了模型生成逼真音乐结果的能力。

文章来源：https://www.marktechpost.com/2023/12/18/bytedance-ai-research-introduces-stemgen-an-end-to-end-music-generation-deep-learning-model-trained-to-listen-to-musical-context-and-respond-appropriately/

标签：

字节跳动人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 DeepMind推出带验证器AI模型高效解决数学难题

下一篇百川智能宣布开放Baichuan2-Turbo系列API

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来