Meta GenAI推出Fairy:突破性AI视频编辑框架

2023年12月29日 由 daydream 发表 582 0

人工智能最近已被应用于生活的各个领域。同样地,它也被用于视频生成和视频编辑。AI为创造力打开了新的可能性,使得内容生成和操作变得无缝。然而,由于需要在各个帧之间保持时间连贯性的复杂性,视频编辑仍然充满挑战。传统的视频编辑方法通过追踪像素的运动使用光流技术,或者将视频重建为分层表示来解决这个问题。然而,这些技术在面对有大量运动或复杂动态的视频时容易失败,因为像素追踪在计算机视觉中仍然是一个未解决的问题。


因此,Meta GenAI的研究人员提出了一个名为Fairy的全新高效视频到视频合成框架,专门设计用于指导视频编辑任务。Fairy接受一个含有N帧的视频输入,并使用自然语言编辑指令来创造一个新视频,这个新视频遵循给定的指令,同时保持原始视频的语义上下文。Fairy使用一种基于锚点的跨帧注意力机制,将扩散特征在相邻帧之间传递。通过这种技术,Fairy能够在短短14秒内制作120帧512×384分辨率的视频,至少比之前的最先进系统快了44倍。


Fairy还能在编辑过程中保持时间上的连续性。研究人员使用了一种独特的数据增强策略,将仿射变换等价性引入到模型中。因此,系统能够有效地管理源图像和目标图像中的变化,尤其是在处理具有广泛运动或复杂动态的视频时,进一步提升了性能。


开发者设计了一套方案,通过跨帧注意力机制将从精心选择的锚点帧中提取的值属性传播到候选帧。这随后使得建立一个作为相似性度量的注意力图成为可能,最终微调并协调跨越不同帧的特征表示。这种设计大大减少了特征差异,在最终输出中增强了时间上的一致性。


研究人员通过对1000个生成的视频进行严格评估来评估模型。研究人员发现,Fairy在视觉质量上超过了之前的最先进系统。此外,它还展示了超过44倍的速度提升,得益于八个GPU支持的并行处理能力。但是它也有一些限制。尽管有相同的文本提示和随机初始化噪声,它在输入帧中可能会有轻微的不一致性。这些异常可能是由于对输入执行的仿射修改或在视频序列中发生的小变化造成的。


fairy-1


总之,Meta的Fairy在视频编辑和人工智能方面是一次变革性的飞跃。凭借其卓越的时间一致性和视频合成,Fairy确立了自己作为行业中质量和效率的标杆。用户可以因其创新的图像编辑扩散模型、基于锚点的跨帧注意力和不变的微调,而以非凡的速度生成高分辨率视频。

文章来源:https://www.marktechpost.com/2023/12/28/researchers-from-meta-genai-introduce-fairy-fast-parallelized-instruction-guided-video-to-video-synthesis-artificial-intelligence-framework/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消