Google AI推出VideoPoet:集成式多功能视频创作AI模型

2023年12月21日 由 daydream 发表 544 0

Google AI推出了VideoPoet,这是一种建模方法,可以将任何自回归语言模型或大型语言模型转化为高质量的视频生成器。VideoPoet在视频生成方面显示出了最先进的性能,特别是在生成各种大型、有趣且高保真度运动的方面。


微信截图_20231221095853


VideoPoet的核心是多任务处理能力。从动态化静态图像到视频编辑的修补或扩展,甚至从视频生成音频,其应用范围很广。该模型可以将文本、图像或视频作为输入,其输出跨越文本到视频、图像到视频和视频到音频等多种转换。这种多功能性使VideoPoet成为多种视频生成任务的综合解决方案。它的一个主要优势是将多种能力整合到一个模型中,无需独立的专门组件。


VideoPoet之所以与众不同,是因为它依赖于离散令牌来表示视频和音频,就像LLM处理语言一样。通过使用多个令牌化器(对于视频和图像是MAGVIT V2,对于音频是SoundStream),VideoPoet可以将这些模态编码和解码成可视格式。这种方法使得该模型能够将其语言处理能力扩展到视频和音频,为创作者和技术专家提供了强大的工具。


image18


VideoPoet能够根据特定文本输入生成具有多样化动作和风格的视频,展示了它在内容和上下文理解方面的先进性。无论是使一幅画动起来,还是根据描述性文本生成视频剪辑,该模型都表现出在保持物体完整性和外观方面的卓越能力,即使是在较长的时间段内也是如此。谷歌指出,该模型支持在正方形或肖像方向上生成视频,以适应短视频内容的生成,并且还支持从视频输入生成音频。


image13


VideoPoet的一个显著特点是其交互式视频编辑能力。用户可以引导模型修改视频中的动作或动态,提供高度的创造性控制。模型还能准确响应摄像机运动命令,进一步增强其在创造动态和视觉上吸引人内容方面的效用。此外,VideoPoet还可以为生成的视频生成合理的音频,而不需要任何指导,展示了其出色的多模态理解能力。


默认情况下,VideoPoet输出2秒钟的视频。然而,给定1秒钟的视频剪辑,它可以预测1秒钟的视频输出。这个过程可以无限重复,以产生任意长度的视频。


尽管相比Runway和Pika的工具,它们的输出还有相当大的差距,但VideoPoet突显了谷歌在基于AI的视频生成和编辑方面所取得的重要进展。

文章来源:https://www.maginative.com/article/google-ai-unveils-videopoet-a-zero-shot-video-generation-large-language-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消