腾讯EzAudio：文本转逼真音频的AI突破

2024年09月19日由 daydream 发表 537 0

约翰霍普金斯大学和腾讯AI实验室的研究人员开发了一种新的文本转音频（T2A）生成模型EzAudio。该模型声称能够从文本提示中高效地产生高质量的声音效果，这在人工智能和音频技术领域代表了重要进展。

微信截图_20240919105813

与传统方法使用频谱图不同，EzAudio在音频波形的潜在空间内运作，这种方法不需要额外的神经声码器，并且可以提供高时间分辨率。研究者们在项目网站上发布的论文中详细介绍了这一点。

EzAudio采用名为EzAudio-DiT（扩散变换器）的架构，其中包括几种技术革新，例如AdaLN-SOLA自适应层归一化技术、长跳跃连接以及像RoPE（旋转位置嵌入）这样的高级定位技术。根据研究者的说法，EzAudio生成的音频样本非常逼真，在客观和主观评价中都超越了现有的开源模型。

随着AI音频生成市场的快速增长，EzAudio的发布显得尤为及时。市场上的其他参与者如ElevenLabs最近推出了iOS应用进行文本到语音转换，表明消费者对AI音频工具的兴趣日益增加。同时，微软和谷歌等科技巨头也在持续投资于AI语音模拟技术。

尽管AI技术的进步带来了诸多可能性，但其在工作场所的广泛应用也引发了一些担忧。德勤的一项研究表明，近半数员工担心因AI而失去工作，尤其是那些更频繁使用AI工具的人更加担忧自己的职业安全。

随着AI音频生成技术变得更加成熟，伦理问题和负责任的使用变得尤为重要。通过文本提示生成真实音频的能力引发了关于潜在滥用的担忧，比如制作深度伪造内容或未经授权的语音克隆。为了促进透明度和进一步的研究，EzAudio团队公开了代码、数据集和模型检查点。

文章来源：https://venturebeat.com/ai/tencent-ezaudio-ai-transforms-text-to-lifelike-sound-sparking-innovation-and-debate/

标签：

腾讯 EzAudio AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇狮门娱乐与Runway AI达成合作，探索AI在电影制作中的应用

下一篇 Suno发布“Covers”功能，可一键翻唱歌曲

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市