Meta AI推出了Audiobox,这是它的一款新型基础研究模型,用于生成音频。它允许使用语音和文本提示来创造定制的语音、音效和音景。
Audiobox在Meta之前的语音生成模型Voicebox的基础上有了显著提高,大大增强了音频AI的可控制性和质量。在生成与文本提示中描述的期望风格和环境准确匹配的声音和声效方面,该模型优于之前的系统。
Audiobox的独特之处在于它能够同时接受语音录音和自然语言文本作为输入。这种双重输入方式提供了更细微的控制生成音频的能力。
举例来说,用户可以输入一个语音样本,然后添加一个如"在大洞穴中缓慢地讲话"的文本提示,以此来改变语音的节奏或者所处的环境。语音输入会保留其独特的声音特征,而文本则用于修改其他参数。
Meta开发Audiobox的目的是为了让音频制作更容易获得。该模型降低了制作播客、视频、游戏等需要的定制声音、语音和音景的难度。即便是初学者,也可以轻松地生成高品质的音频元素来丰富他们的媒体项目,无需深厚的专业知识。
然而,正如所有有深远影响的人工智能创新一样,负责任的发展至关重要。Meta选择性地向在语音和责任研究方面有良好记录的研究者开放了Audiobox的使用权限。为了防止滥用,公司还在模型中加入了音频水印和声音认证的安全措施。
今天早些时候,阿里云还完全开源了它的Qwen-Audio模型。与Audiobox相似,它们的多模态基础模型也可以处理各种类型的音频数据和文本,在声音理解的各种基准测试中取得了非凡的成果。
在Meta注重控制性的Audiobox和阿里巴巴注重多功能性的Qwen-Audio之间,负责任和公平的音频AI开放式创新显然正顺利进行。随着更多的研究者能够访问这些强大的技术,我们很可能会看到这一领域在能力、多功能性和质量方面继续实现突破。