DeepMind发布新一代视频生成AI Veo 2，挑战OpenAI

2024年12月17日由 daydream 发表 585 0

Google旗下的旗舰人工智能研究实验室DeepMind近日宣布推出新一代视频生成AI——Veo 2，该技术是Veo的升级版，广泛应用于Google的多个产品线。Veo 2能够生成超过两分钟、分辨率高达4K（4096x2160像素）的视频片段。

微信截图_20241217102544

相较于OpenAI的视频生成模型Sora，Veo 2在理论上具有显著优势。Sora能够生成最高1080P分辨率、时长20秒的视频，而Veo 2的分辨率是其四倍，时长更是超过六倍。然而，目前这一优势主要体现在理论层面。在Google的实验性视频创作工具VideoFX中，Veo 2生成的视频被限制在720P分辨率和8秒时长内（Sora可生成1080P、20秒的视频）。

微信截图_20241217102635

VideoFX目前处于邀请制测试阶段，但Google表示本周将扩大用户访问范围。DeepMind的副总裁Eli Collins透露，随着模型逐渐成熟，Veo 2将通过Google的Vertex AI开发者平台向更广泛的用户开放。

Veo 2在功能上进行了多项升级。与Veo类似，Veo 2能够根据文本提示（如“一辆汽车在高速公路上疾驰”）或文本和参考图像生成视频。但Veo 2在物理规律理解、摄像控制以及视频清晰度方面有所改进。具体来说，Veo 2生成的纹理和图像更加清晰，特别是在场景快速变化时。同时，Veo 2的摄像控制能力更强，能够更精确地定位虚拟摄像机的位置，并通过移动摄像机捕捉不同角度的物体和人物。

此外，DeepMind声称Veo 2在模拟运动、流体动力学（如咖啡倒入杯子）以及光线属性（如阴影和反射）方面更加逼真。这包括不同镜头和电影效果的模拟，以及复杂的人类表情。

然而，尽管DeepMind强调Veo 2不太可能生成如多余手指或“意外物体”等虚假元素，但Veo 2仍然未能完全跨越“恐怖谷”。在某些生成的视频中，人物或物体的动作和表情显得不够自然。

Collins承认，Veo 2在连贯性和一致性方面仍有提升空间。他说：“Veo可以持续几分钟内遵循提示，但不能在长时间范围内遵循复杂提示。同样，角色的一致性也可能是一个挑战。此外，在生成精细细节、快速和复杂的动作以及继续推动逼真度方面也有待改进。”

关于Veo 2的训练数据，DeepMind拒绝透露具体来源，但YouTube作为Google旗下的视频网站，是一个可能的训练数据源。DeepMind表示，Veo 2通过大量视频和描述配对进行训练，但并未提供机制让创作者从现有训练集中删除作品。这引发了关于版权和艺术家权益的争议。

为减轻生成模型可能带来的风险，如内容重复或生成有害内容，DeepMind在Veo 2中加入了针对暴力、血腥和色情内容的提示级过滤器。同时，DeepMind还使用其专有的水印技术SynthID在Veo 2生成的帧中嵌入不可见的标记，以减轻深度伪造的风险。然而，水印技术并非万无一失。

与此同时，DeepMind还宣布对Imagen 3图像生成模型进行了升级。新版本将提供更明亮、构图更佳的图像，并可以生成包括写实主义、印象派和动漫等风格的照片。此外，Imagen 3的升级版本还将更准确地遵循指令，并呈现更丰富的细节和纹理。

文章来源：https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌发布新型AI工具Whisk，支持以图生图

下一篇 Meta AI与斯坦福大学联合推出Apollo视频多模态模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来