Stability AI正不断拓展其强大的生成式AI模型阵容,最新推出的稳定视频4D模型,为其技术版图增添了一个全新的维度。
在视频生成领域,尽管已有OpenAI的Sora、Runway、Haiper及Luma AI等众多工具涌现,但Stable Video 4D显得尤为独特。它建立在Stability AI已有的稳定视频扩散模型之上,该模型擅长将静态图像转化为动态视频。而Stable Video 4D更进一步,它接收视频作为输入,并能基于这一视频,从八个不同角度生成全新的视频视角,极大地丰富了视频内容的多样性和视角灵活性。
“我们认为,Stable Video 4D将在电影制作、游戏开发、增强现实/虚拟现实(AR/VR)等领域大显身手,尤其适用于需要从任意摄像机角度观察动态3D物体的场景。”Stability AI公司的3D研究团队负责人Varun Jampani透露。
值得注意的是,这并非Stability AI首次跨越二维界限。今年早些时候,他们就推出了Stable Video 3D,允许用户根据图像或文本提示生成3D短视频。而Stable Video 4D则是在此基础上的又一次飞跃。传统上,3D被理解为具有宽(x)、高(y)和深(z)三个维度的图像或视频,而Stable Video 4D则加入了时间(t)这一第四维度,使得用户能够穿越时空的界限,从多角度、多时段观察动态的三维物体。
Jampani解释说,Stable Video 4D之所以能够实现这一功能,关键在于它融合了Stable Video Diffusion和Stable Video 3D模型的优势,并通过精心准备的动态3D物体数据集进行了微调。更重要的是,Stable Video 4D是首个能够同时完成新颖视角合成和视频生成的单一网络,这打破了以往需要分别使用视频生成和新颖视角合成网络的常规做法。
在注意力机制的设计上,Stable Video 4D也与众不同。它允许每个生成的视频帧在不同的摄像机视角或时间点上关注其相邻帧,从而确保了输出视频的三维连贯性和时间平滑性。
与常见的生成式AI填充/补全技术不同,Stable Video 4D并不依赖于输入视频中的明确像素信息转移。相反,它完全以原始输入视频为指导,从零开始合成八个全新的视频视角。这一过程中,没有显式的像素信息传输,所有信息都由网络内部隐式处理完成。
目前,Stable Video 4D已在Hugging Face平台上开放研究评估,但Stability AI尚未公布其未来的商业应用计划。Jampani透露,当前的Stable Video 4D已经能够处理几秒长的、背景单一且物体简单的视频,但他们正致力于将其拓展到更长的视频和更复杂的场景中。