微软推出DragNUWA将视频生成推向新高度

2024年01月10日 由 daydream 发表 280 0

人工智能公司正竞相掌握视频生成的艺术。在过去的几个月里,包括Stability AI和Pika实验室在内的行业几家公司已发布了能够根据文本和图像提示生成各种类型视频的模型。在此基础上,微软人工智能发布了一个旨在提供对视频制作更精细控制的模型。


微信截图_20240110130946


这个项目被称为DragNUWA,它补充了已知的基于文本和图像提示的方法,加入了基于轨迹的生成。这使得用户能够控制特定轨迹上的物体或整个视频帧。这为从语义、空间和时间角度生成高度可控的视频提供了一种简单的方法——同时确保输出的高质量。


微软已经开源了该项目的模型权重和演示,允许社群尝试使用。然而,重要的是这仍然是一个研究工作,并且远非完美。


微软DragNUWA有什么独特之处?


从历史的角度来看,人工智能驱动的视频生成已经围绕文本、图像或轨迹输入展开。这些工作相当不错,但每种方法都在生成所需精细控制的输出上遇到了挑战。


例如,仅仅结合文本和图像,就无法传达视频中存在的复杂运动细节。同时,图像和轨迹可能无法充分代表未来的物体和轨迹,而且在表达抽象概念时语言可能会导致含糊不清。一个例子是无法区分现实世界中的鱼和一幅鱼的画作。


为了解决这个问题,2023年8月,微软人工智能团队提出了DragNUWA,这是一个开放域扩散式视频生成模型,将图像、文本和轨迹这三个因素结合在一起,以促进从语义、空间和时间角度高度可控的视频生成。这使用户能够在输入中严格定义所需的文本、图像和轨迹,以控制输出视频中的摄像机运动,包括放大或缩小效果,或者物体的运动。


例如,可以上传一张在水体中的船只图像,并添加文本提示“一艘在湖中航行的船”,以及标记船只轨迹的指示。这将生成一段船只沿标记方向航行的视频,达到所需的效果。轨迹提供运动细节,语言描述未来的物体,图像则区分了不同的物体。


Figure1


在Hugging Face发布


在Hugging Face发布的DragNUWA 1.5早期版本中,微软利用了Stability AI的Stable Video Diffusion模型来根据特定路径动画化图像或其对象。成熟后,这项技术可以使视频生成和编辑变得简单。想象一下,通过在这里或那里画一条线,就能够变换背景、动画化图像和指导运动路径。


人工智能爱好者对这一发展感到兴奋,许多人称之为创意人工智能的一大飞跃。然而,这个研究模型在现实世界中的表现如何还有待观察。在其测试中,微软声称该模型能够通过不同的拖动轨迹实现准确的摄像机运动和物体运动。


“首先,DragNUWA支持复杂的弯曲轨迹,使得能够生成沿特定复杂轨迹移动的物体。其次,DragNUWA允许变化轨迹长度,较长的轨迹会产生更大的运动幅度。最后,DragNUWA能够同时控制多个物体的轨迹。据我们所知,没有现有的视频生成模型有效实现了这样的轨迹可控制性,这凸显了DragNUWA在未来应用中推进可控视频生成方面的巨大潜力。”公司研究人员在论文中指出。


这项工作为人工智能视频领域不断增长的研究添加了新的方向。就在不久前,Pika实验室通过开放其文本到视频接口而成为头条新闻,该接口的工作方式与ChatGPT一样,并且能够提供各种定制化选项,生成高质量的短视频。

文章来源:https://venturebeat.com/ai/microsoft-dragnuwa-pushes-the-bar-in-ai-video-with-trajectory-based-generation/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消