Meta宣布Emu工具在AI图像和视频生成方面取得新突破

2023年11月17日 由 daydream 发表 486 0

Meta公司的研究人员表示,他们在AI图像和视频生成方面取得了重大进展。


微信截图_20231117100355


这家Facebook和Instagram的母公司开发了一种新工具,通过文本指令可以更好地控制图像编辑过程,并且还开发了一种新的文本到视频生成方法。这些新工具是基于Meta的Expressive Media Universe(Emu)开发的,Emu是该公司用于图像生成的首个基础模型。


Emu于9月份宣布,并且现在正在生产中使用,用于驱动Meta AI的Imagine功能。Imagine功能允许用户在Messenger中生成逼真的图像。在一篇博客文章中,Meta的AI研究人员解释说,生成式AI图像生成通常是一个逐步的过程,用户尝试输入提示,生成的图片并不完全符合他们的想法。因此,用户被迫不断调整提示,直到生成的图像接近他们所想象的样子。


Emu Edit用于图像编辑


Meta想要做的是消除这个过程并给用户更精确的控制权,这就是它的新Emu Edit工具的所有功能。它提供了一种新颖的图像处理方法,用户只需输入基于文本的指令。它可以进行局部和全局编辑,添加或删除背景,颜色和几何变换,对象检测,分割以及许多其他的编辑任务。


“当前的方法往往倾向于在各种编辑任务上过度修改或表现不佳。”研究人员写道。“我们认为,主要目标不应仅仅是产生一张‘可信度’高的图像,而是模型应该专注于仅精确修改与编辑请求相关的像素。”


为了实现这一目标,Emu Edit被设计成精确遵循用户的指示,以确保与编辑请求无关的像素不受编辑影响。例如,如果用户想要在一张棒球帽的图片上添加文本“Aloha!”帽子本身不应该被改变。


微信截图_20231117100418


研究人员表示,在图像生成模型的指令中加入计算机视觉可以让用户在图像编辑方面具有前所未有的控制能力。


Emu Edit是在一个包含1000万合成样本的数据集上进行训练的,每个样本都包括一个输入图像、一个要执行的任务描述和目标输出图像。研究人员认为,这是迄今为止创建的最大规模的数据集,使Emu Edit可以在指令的忠实度和图像质量方面提供绝佳的结果。


Emu Video用于视频生成


Meta的人工智能团队还专注于提升视频生成。研究人员解释说,使用生成式AI创建视频的过程实际上与图像生成类似,只是它通过使图像动起来来赋予了生命。


Emu Video利用了Emu模型,并提供了一种简单的基于扩散模型的文本到视频生成方法。Meta表示,该工具可以对各种输入做出响应,包括仅文本、仅图像或两者结合。


视频生成过程分为几个步骤,首先是创建一个以文本为条件的图像,然后根据该图像和另一个文本提示创建一个视频。根据团队的说法,这种"分解"的方法为训练视频生成模型提供了一种极为高效的方式。


"我们展示了分解视频生成可以通过一个扩散模型来实现。"研究人员写道。"我们提供了一些关键的设计决策,如调整视频扩散的噪声进程和多阶段训练,这使我们能够直接生成更高分辨率的视频。"


微信截图_20231117100427


Meta表示,这种新方法的优点在于实现起来更简单,只需使用一对扩散模型即可生成每秒16帧的512x512的4秒视频,而之前的Make-A-Video工具需要使用五个模型。公司称,人工评估显示,这项工作在整体质量和忠实度方面较早期的图像生成工作"更受欢迎"。


Emu Video还具有其他功能,包括根据简单的文本提示为用户的图像添加动画效果,再次超越了之前的工作。


目前,Meta在生成式AI图像编辑和视频生成方面的研究仍在进行中,但该团队强调,该技术有许多令人兴奋的应用案例。例如,它可以让用户即时创建自己的动画贴纸和GIF,而不是搜索与他们试图转换的想法匹配的现有贴纸。它还可以让人们在不使用诸如Photoshop等复杂工具的情况下编辑自己的照片。


该公司还补充说,它的最新模型不太可能在短期内取代专业艺术家和动画师。相反,它们的潜力在于帮助人们以新的方式表达自己。

文章来源:https://siliconangle.com/2023/11/16/meta-announces-new-breakthroughs-ai-image-editing-video-generation-emu/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消