Meta推出MAGNeT,一种面向随身音乐创作的开源文本转音频模型

2024年01月17日 由 camellia 发表 408 0

Meta AI最近推出了MAGNeT,一种文本到音频的生成模型,承诺将改善我们创作和体验声音的方式。这种非自回归变换模型操作多个音频令牌流,能够快速有效地通过单阶段方法生成音频。


1_副本


它在速度和质量之间取得平衡,结合了自回归和非自回归方法用于序列的不同部分,以确保获得最佳结果。利用外部预训练模型来对预测进行排名和优化,确保推动音频质量和真实感的界限。


与自回归基线相比,它实现了惊人的7倍速度提升,为音乐制作、各种媒体项目的音效设计以及多样化声景的创造性探索打开了可能性。此外,它对于开发视觉障碍或阅读挑战个体的辅助工具的潜力也很有前途。


关于 MAGNeT


Meta AI的MAGNeT展示了文本到音频生成的尖端技术,并深入探讨了自回归和非自回归模型之间的权衡。研究人员通过细致的消融研究,探讨了各个组件的影响,为模型性能提供了宝贵的见解。


为了使模型能够访问更广泛的受众,Meta AI还引入了用户友好的Gradio演示。这个网络界面使用户能够测试MAGNeT的能力,无需编码经验,使高级音频生成技术的访问民主化。


它的创新架构和先进技术使其脱颖而出,非自回归设计同时预测掩蔽的令牌范围,加速了生成过程,并通过使用单阶段变换器进行编码和解码,简化了模型。


在训练期间集成自定义掩蔽调度程序和在推理期间进行渐进式解码,增加了适应性层面,优化了学习并可能减少错误。MAGNeT进一步差异化本身通过一种新颖的重评分方法,利用外部预训练模型来精化预测和提升音频质量。


与其他顶级模型相比,它在效率和质量方面显示出其优势,使其成为快速音频合成领域的一个吸引人的选择。尽管像Jukebox和MuseNet这样的模型在高保真和表达性音乐生成方面表现出色,但MAGNeT在整体质量和速度上的关注使其在领域中独具一格。


混合版本结合了自回归和非自回归方法,既保证了最初的高质量生成,又实现了随后的快速并行解码。MAGNeT为高效和高质量的文本到音频合成设定了新标准,为该领域的进步开辟了道路。

文章来源:https://analyticsindiamag.com/meta-launches-magnet-an-open-source-text-to-audio-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消