Google旗下的旗舰人工智能研究实验室DeepMind近日宣布推出新一代视频生成AI——Veo 2,该技术是Veo的升级版,广泛应用于Google的多个产品线。Veo 2能够生成超过两分钟、分辨率高达4K(4096x2160像素)的视频片段。
相较于OpenAI的视频生成模型Sora,Veo 2在理论上具有显著优势。Sora能够生成最高1080P分辨率、时长20秒的视频,而Veo 2的分辨率是其四倍,时长更是超过六倍。然而,目前这一优势主要体现在理论层面。在Google的实验性视频创作工具VideoFX中,Veo 2生成的视频被限制在720P分辨率和8秒时长内(Sora可生成1080P、20秒的视频)。
VideoFX目前处于邀请制测试阶段,但Google表示本周将扩大用户访问范围。DeepMind的副总裁Eli Collins透露,随着模型逐渐成熟,Veo 2将通过Google的Vertex AI开发者平台向更广泛的用户开放。
Veo 2在功能上进行了多项升级。与Veo类似,Veo 2能够根据文本提示(如“一辆汽车在高速公路上疾驰”)或文本和参考图像生成视频。但Veo 2在物理规律理解、摄像控制以及视频清晰度方面有所改进。具体来说,Veo 2生成的纹理和图像更加清晰,特别是在场景快速变化时。同时,Veo 2的摄像控制能力更强,能够更精确地定位虚拟摄像机的位置,并通过移动摄像机捕捉不同角度的物体和人物。
此外,DeepMind声称Veo 2在模拟运动、流体动力学(如咖啡倒入杯子)以及光线属性(如阴影和反射)方面更加逼真。这包括不同镜头和电影效果的模拟,以及复杂的人类表情。
然而,尽管DeepMind强调Veo 2不太可能生成如多余手指或“意外物体”等虚假元素,但Veo 2仍然未能完全跨越“恐怖谷”。在某些生成的视频中,人物或物体的动作和表情显得不够自然。
Collins承认,Veo 2在连贯性和一致性方面仍有提升空间。他说:“Veo可以持续几分钟内遵循提示,但不能在长时间范围内遵循复杂提示。同样,角色的一致性也可能是一个挑战。此外,在生成精细细节、快速和复杂的动作以及继续推动逼真度方面也有待改进。”
关于Veo 2的训练数据,DeepMind拒绝透露具体来源,但YouTube作为Google旗下的视频网站,是一个可能的训练数据源。DeepMind表示,Veo 2通过大量视频和描述配对进行训练,但并未提供机制让创作者从现有训练集中删除作品。这引发了关于版权和艺术家权益的争议。
为减轻生成模型可能带来的风险,如内容重复或生成有害内容,DeepMind在Veo 2中加入了针对暴力、血腥和色情内容的提示级过滤器。同时,DeepMind还使用其专有的水印技术SynthID在Veo 2生成的帧中嵌入不可见的标记,以减轻深度伪造的风险。然而,水印技术并非万无一失。
与此同时,DeepMind还宣布对Imagen 3图像生成模型进行了升级。新版本将提供更明亮、构图更佳的图像,并可以生成包括写实主义、印象派和动漫等风格的照片。此外,Imagen 3的升级版本还将更准确地遵循指令,并呈现更丰富的细节和纹理。