谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

2024年06月19日由 daydream 发表 441 0

声音无疑是制作高质量视频的核心要素。正因如此，尽管像谷歌的Veo、OpenAI的Sora和Runway的Gen-3 Alpha等工具在视频制作上取得了逼真的效果，但这些作品常常让人感觉少了些灵动和生气。为了弥补这一不足，谷歌DeepMind最新的AI模型尝试通过为视频生成同步配乐来为其注入活力。这真是一项令人惊叹的技术。

微信截图_20240619103652

谷歌的V2A（视频转音频）技术巧妙地将视频像素与可选的文本提示相结合，从而创作出与视觉内容紧密贴合的音频。它不仅可以生成音乐、音效，甚至能匹配屏幕上动作的对话。

在内部机制上，V2A采用了基于扩散的方法来生成逼真的音频。该系统首先将视频输入编码为压缩形式，然后从随机噪声中逐步细化音频，全程受到视觉内容和可选文本提示的指引。随后，生成的音频会被解码为波形并与视频完美融合。

微信截图_20240619104616

为了提升音频质量和实现更精准的声音生成，DeepMind在额外的数据上训练了模型，比如AI生成的声音注释和对话脚本。这使得V2A能够将音频事件与各种视觉场景精准匹配，同时响应提供的注释或脚本。

然而，V2A也有其局限性。音频的质量很大程度上取决于输入视频的质量，视频中的瑕疵或失真会直接影响音质。此外，对于语音视频的口型同步也有待提升，因为配对的视频生成模型可能无法将口部动作与脚本完美匹配。

在生成式AI领域，也有其他工具在努力解决这一问题。例如，今年早些时候，Pika labs推出了名为“Sound Effects”的类似功能。而Eleven Labs最近也推出了Sound Effects Generator。

据谷歌表示，V2A的独特之处在于它能够深入理解原始视频像素。同时，它还省去了手动将生成的声音与视觉内容对齐的繁琐步骤。将V2A与如Veo这样的视频生成模型结合使用，可以创造出连贯的视听体验，使其在娱乐和虚拟现实应用上极具潜力。

谷歌在发布视频AI工具时非常谨慎。目前，令AI内容创作者感到失望的是，谷歌并未计划立即公开发布这些工具。相反，该公司正专注于解决现有局限性并确保对创意社区产生积极影响。与其他模型一样，V2A模型的输出将包含SynthID水印，以防止滥用。

文章来源：https://www.maginative.com/article/googles-new-ai-can-generate-audio-for-your-silent-videos/

标签：

谷歌 DeepMind V2A

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇语音助手崛起：AI赋能客户服务新前沿

下一篇 ElevenLabs推出文本转语音阅读器应用

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来