阿里巴巴集团智能计算研究院的研究人员推出了一项先进的角色动画技术“Animate Anyone”,能无缝地把静态图像变成动态的角色视频。该技术利用扩散模型,解决了图像到视频转换中保持时间一致性和细节的难题。
研究人员在一篇论文中介绍了这项创新的工作。他们设计了一个专为角色动画定制的框架,其中有一个关键的元素,ReferenceNet,能结合参考图像的细节特征,同时保留复杂的外观特征。他们通过空间注意力来实现这一点,保证动画过程中视觉元素的一致性。
他们还讨论了一个高效的姿态引导器,用来指导角色的动作,保证帧之间的平滑和受控的过渡。他们还采用了一个有效的时间建模方法,保证角色动画中帧间的无缝过渡。
扩散模型是视觉生成研究的前沿,但从静态图像到视频的转换还有很多挑战,尤其是在保持角色的时间一致性和细节方面。Animate Anyone正是在解决这些问题。如果成功发布,它可能会对Instagram和TikTok上的短视频内容制作者造成威胁。借助参考图像,任何形式的动画,包括360度旋转,都可以用这个框架来实现,实现多功能的视频创作。
团队承认,他们收到了很多关于演示或在GitHub上获取源代码的询问,他们正在准备公开发布,把一个学术原型变成一个用户友好的原型。但目前还没有具体的日期。