约翰霍普金斯大学和腾讯AI实验室的研究人员开发了一种新的文本转音频(T2A)生成模型EzAudio。该模型声称能够从文本提示中高效地产生高质量的声音效果,这在人工智能和音频技术领域代表了重要进展。
与传统方法使用频谱图不同,EzAudio在音频波形的潜在空间内运作,这种方法不需要额外的神经声码器,并且可以提供高时间分辨率。研究者们在项目网站上发布的论文中详细介绍了这一点。
EzAudio采用名为EzAudio-DiT(扩散变换器)的架构,其中包括几种技术革新,例如AdaLN-SOLA自适应层归一化技术、长跳跃连接以及像RoPE(旋转位置嵌入)这样的高级定位技术。根据研究者的说法,EzAudio生成的音频样本非常逼真,在客观和主观评价中都超越了现有的开源模型。
随着AI音频生成市场的快速增长,EzAudio的发布显得尤为及时。市场上的其他参与者如ElevenLabs最近推出了iOS应用进行文本到语音转换,表明消费者对AI音频工具的兴趣日益增加。同时,微软和谷歌等科技巨头也在持续投资于AI语音模拟技术。
尽管AI技术的进步带来了诸多可能性,但其在工作场所的广泛应用也引发了一些担忧。德勤的一项研究表明,近半数员工担心因AI而失去工作,尤其是那些更频繁使用AI工具的人更加担忧自己的职业安全。
随着AI音频生成技术变得更加成熟,伦理问题和负责任的使用变得尤为重要。通过文本提示生成真实音频的能力引发了关于潜在滥用的担忧,比如制作深度伪造内容或未经授权的语音克隆。为了促进透明度和进一步的研究,EzAudio团队公开了代码、数据集和模型检查点。