TikTok 的母公司 ByteDance 发表了一篇关于 Boximator 的研究论文,这项新技术可以在生成的视频中对物体运动进行非常精细的控制。
Boximator("box "和 "animator "的谐音)引入了一种简单而强大的运动规范方法。用户首先在参考图像中选择对象,在其周围画出方框。然后,用户可以使用额外的方框和线条定义对象的结束位置或跨帧的整个运动路径。这种以视觉为基础的技术避免了需要口头描述所需的运动。
Boximator 作为一个插件,在现有的视频合成模型中加入了这些用户约束。在冻结基础模型权重的同时,它还能训练额外的模块,从而实现与最先进系统的直接集成。
根据经验,Boximator 增强模型保留了原始视频质量,这是通过Fréchet视频距离(FVD)得分来衡量的,同时获得了精确的运动控制能力。在 MSR-VTT 数据集上,该模块改进了两个基本模型的 FVD,同时实现了很强的运动对准能力,并通过将生成的运动与地面实况框进行比较的平均精度指标进行量化。
定性结果进一步凸显了技术的逼真性,对象忠实地遵循用户定义的复杂路径、交互以及场景进入/退出。Boximator 可管理人骑马等复合元素,并控制物体数量、大小、距离等。
这标志着向兼顾质量、多样性和用户控制的多功能视频生成平台迈出了重要一步。通过将运动规范外部化,Boximator 有可能节省内部学习此类细粒度方面所需的大量计算。