Meta推出MAGNeT，一种面向随身音乐创作的开源文本转音频模型

2024年01月17日由 camellia 发表 781 0

Meta AI最近推出了MAGNeT，一种文本到音频的生成模型，承诺将改善我们创作和体验声音的方式。这种非自回归变换模型操作多个音频令牌流，能够快速有效地通过单阶段方法生成音频。

1_副本

它在速度和质量之间取得平衡，结合了自回归和非自回归方法用于序列的不同部分，以确保获得最佳结果。利用外部预训练模型来对预测进行排名和优化，确保推动音频质量和真实感的界限。

与自回归基线相比，它实现了惊人的7倍速度提升，为音乐制作、各种媒体项目的音效设计以及多样化声景的创造性探索打开了可能性。此外，它对于开发视觉障碍或阅读挑战个体的辅助工具的潜力也很有前途。

关于 MAGNeT

Meta AI的MAGNeT展示了文本到音频生成的尖端技术，并深入探讨了自回归和非自回归模型之间的权衡。研究人员通过细致的消融研究，探讨了各个组件的影响，为模型性能提供了宝贵的见解。

为了使模型能够访问更广泛的受众，Meta AI还引入了用户友好的Gradio演示。这个网络界面使用户能够测试MAGNeT的能力，无需编码经验，使高级音频生成技术的访问民主化。

它的创新架构和先进技术使其脱颖而出，非自回归设计同时预测掩蔽的令牌范围，加速了生成过程，并通过使用单阶段变换器进行编码和解码，简化了模型。

在训练期间集成自定义掩蔽调度程序和在推理期间进行渐进式解码，增加了适应性层面，优化了学习并可能减少错误。MAGNeT进一步差异化本身通过一种新颖的重评分方法，利用外部预训练模型来精化预测和提升音频质量。

与其他顶级模型相比，它在效率和质量方面显示出其优势，使其成为快速音频合成领域的一个吸引人的选择。尽管像Jukebox和MuseNet这样的模型在高保真和表达性音乐生成方面表现出色，但MAGNeT在整体质量和速度上的关注使其在领域中独具一格。

混合版本结合了自回归和非自回归方法，既保证了最初的高质量生成，又实现了随后的快速并行解码。MAGNeT为高效和高质量的文本到音频合成设定了新标准，为该领域的进步开辟了道路。

文章来源：https://analyticsindiamag.com/meta-launches-magnet-an-open-source-text-to-audio-model/

标签：

Meta MAGNeT 人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Anthropic: AI模型可以被训练来提供虚假信息

下一篇 Accenture宣布每年花费10亿美元进行GenAI培训

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市