谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效

2024年06月19日 由 daydream 发表 174 0

声音无疑是制作高质量视频的核心要素。正因如此,尽管像谷歌的Veo、OpenAI的Sora和Runway的Gen-3 Alpha等工具在视频制作上取得了逼真的效果,但这些作品常常让人感觉少了些灵动和生气。为了弥补这一不足,谷歌DeepMind最新的AI模型尝试通过为视频生成同步配乐来为其注入活力。这真是一项令人惊叹的技术。


微信截图_20240619103652




谷歌的V2A(视频转音频)技术巧妙地将视频像素与可选的文本提示相结合,从而创作出与视觉内容紧密贴合的音频。它不仅可以生成音乐、音效,甚至能匹配屏幕上动作的对话。




在内部机制上,V2A采用了基于扩散的方法来生成逼真的音频。该系统首先将视频输入编码为压缩形式,然后从随机噪声中逐步细化音频,全程受到视觉内容和可选文本提示的指引。随后,生成的音频会被解码为波形并与视频完美融合。


微信截图_20240619104616


为了提升音频质量和实现更精准的声音生成,DeepMind在额外的数据上训练了模型,比如AI生成的声音注释和对话脚本。这使得V2A能够将音频事件与各种视觉场景精准匹配,同时响应提供的注释或脚本。




然而,V2A也有其局限性。音频的质量很大程度上取决于输入视频的质量,视频中的瑕疵或失真会直接影响音质。此外,对于语音视频的口型同步也有待提升,因为配对的视频生成模型可能无法将口部动作与脚本完美匹配。




在生成式AI领域,也有其他工具在努力解决这一问题。例如,今年早些时候,Pika labs推出了名为“Sound Effects”的类似功能。而Eleven Labs最近也推出了Sound Effects Generator。


据谷歌表示,V2A的独特之处在于它能够深入理解原始视频像素。同时,它还省去了手动将生成的声音与视觉内容对齐的繁琐步骤。将V2A与如Veo这样的视频生成模型结合使用,可以创造出连贯的视听体验,使其在娱乐和虚拟现实应用上极具潜力。




谷歌在发布视频AI工具时非常谨慎。目前,令AI内容创作者感到失望的是,谷歌并未计划立即公开发布这些工具。相反,该公司正专注于解决现有局限性并确保对创意社区产生积极影响。与其他模型一样,V2A模型的输出将包含SynthID水印,以防止滥用。

文章来源:https://www.maginative.com/article/googles-new-ai-can-generate-audio-for-your-silent-videos/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消