Meta AI推出Audiobox：支持语音文本生成的新型AI音频模型

2023年12月01日由 daydream 发表 626 0

Meta AI推出了Audiobox，这是它的一款新型基础研究模型，用于生成音频。它允许使用语音和文本提示来创造定制的语音、音效和音景。

微信截图_20231201095323

Audiobox在Meta之前的语音生成模型Voicebox的基础上有了显著提高，大大增强了音频AI的可控制性和质量。在生成与文本提示中描述的期望风格和环境准确匹配的声音和声效方面，该模型优于之前的系统。

Audiobox的独特之处在于它能够同时接受语音录音和自然语言文本作为输入。这种双重输入方式提供了更细微的控制生成音频的能力。

举例来说，用户可以输入一个语音样本，然后添加一个如"在大洞穴中缓慢地讲话"的文本提示，以此来改变语音的节奏或者所处的环境。语音输入会保留其独特的声音特征，而文本则用于修改其他参数。

Meta开发Audiobox的目的是为了让音频制作更容易获得。该模型降低了制作播客、视频、游戏等需要的定制声音、语音和音景的难度。即便是初学者，也可以轻松地生成高品质的音频元素来丰富他们的媒体项目，无需深厚的专业知识。

然而，正如所有有深远影响的人工智能创新一样，负责任的发展至关重要。Meta选择性地向在语音和责任研究方面有良好记录的研究者开放了Audiobox的使用权限。为了防止滥用，公司还在模型中加入了音频水印和声音认证的安全措施。

今天早些时候，阿里云还完全开源了它的Qwen-Audio模型。与Audiobox相似，它们的多模态基础模型也可以处理各种类型的音频数据和文本，在声音理解的各种基准测试中取得了非凡的成果。

在Meta注重控制性的Audiobox和阿里巴巴注重多功能性的Qwen-Audio之间，负责任和公平的音频AI开放式创新显然正顺利进行。随着更多的研究者能够访问这些强大的技术，我们很可能会看到这一领域在能力、多功能性和质量方面继续实现突破。

文章来源：https://www.maginative.com/article/meta-unveils-audiobox-a-new-foundation-model-for-custom-audio-generation/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AWS升级Transcribe服务：AI能力增强，支持100+语言

下一篇 Voicemod发布新功能：用户可自创并分享AI声音

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市