腾讯EzAudio:文本转逼真音频的AI突破

2024年09月19日 由 daydream 发表 215 0

约翰霍普金斯大学和腾讯AI实验室的研究人员开发了一种新的文本转音频(T2A)生成模型EzAudio。该模型声称能够从文本提示中高效地产生高质量的声音效果,这在人工智能和音频技术领域代表了重要进展。


微信截图_20240919105813


与传统方法使用频谱图不同,EzAudio在音频波形的潜在空间内运作,这种方法不需要额外的神经声码器,并且可以提供高时间分辨率。研究者们在项目网站上发布的论文中详细介绍了这一点。


EzAudio采用名为EzAudio-DiT(扩散变换器)的架构,其中包括几种技术革新,例如AdaLN-SOLA自适应层归一化技术、长跳跃连接以及像RoPE(旋转位置嵌入)这样的高级定位技术。根据研究者的说法,EzAudio生成的音频样本非常逼真,在客观和主观评价中都超越了现有的开源模型。


随着AI音频生成市场的快速增长,EzAudio的发布显得尤为及时。市场上的其他参与者如ElevenLabs最近推出了iOS应用进行文本到语音转换,表明消费者对AI音频工具的兴趣日益增加。同时,微软和谷歌等科技巨头也在持续投资于AI语音模拟技术。


尽管AI技术的进步带来了诸多可能性,但其在工作场所的广泛应用也引发了一些担忧。德勤的一项研究表明,近半数员工担心因AI而失去工作,尤其是那些更频繁使用AI工具的人更加担忧自己的职业安全。


随着AI音频生成技术变得更加成熟,伦理问题和负责任的使用变得尤为重要。通过文本提示生成真实音频的能力引发了关于潜在滥用的担忧,比如制作深度伪造内容或未经授权的语音克隆。为了促进透明度和进一步的研究,EzAudio团队公开了代码、数据集和模型检查点。

文章来源:https://venturebeat.com/ai/tencent-ezaudio-ai-transforms-text-to-lifelike-sound-sparking-innovation-and-debate/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消