两张C罗的动图,左图来自FIFA 18游戏,而右图由一个深度神经网络创建。
在过去的几年里,游戏图案看起来非常逼真,但仍然很容易将它们与现实世界的图像区分开来。然而,随着使用深度神经网络的图像处理领域取得了巨大的进步,我们可以利用深度神经网络创建一个球星的脸 效果堪比真人!
为了找出最近的深度学习的发展是否能帮助我回答这个问题,我试着用著名的deepfakes算法来提高FIFA中出现的球员的面部质量。它是一个深度神经网络,可以通过训练来学习和生成极其逼真的人脸。我在这个项目中所关注的是在游戏中重新创建球员的脸,并改进他们使他们看起来和实际的球员完全一样。
注:下面的视频说明了deepfakes算法是如何工作的。它可以用自动编码器和卷积神经网络把任何人的脸和其他人的脸进行交换。
不像游戏开发人员,我可以简单地从谷歌搜索中收集所有需要的数据,而不需要用对C罗进行任何动作捕捉。
deepfakes算法包括训练被称为自动编码器的深度神经网络。这些网络被用于无监督学习,并且有一个编码器,它可以将输入编码成一种称为“encoding(编码)”的紧凑表示形式,而一个解码器可以使用这种编码来重建原始的输入。这种体系结构迫使网络了解输入的底层分布,而不是简单地对输入进行返回。对于作为我们输入的图像,我们使用一个卷积网络作为我们的编码器和一个解卷积的网络作为我们的解码器。该体系结构被训练来最小化无监督学习的重构误差。
在我们的例子中,我们同时训练两个自动编码器网络。一个网络学会了从FIFA 18的制图中再现C罗的面孔。另一个网络学会了从C罗的真实照片中重新创造出其面部。在deepfakes中,这两种网络都有相同的编码器,但都有不同的解码器。因此,我们现在有了两个网络,了解了C罗在游戏和现实生活中的面部有何不同。
第一个自动编码器网络从FIFA图像中学习
第二个自动编码器网络从实际图片中学习
当训练使用预训练的模型对其他面部进行训练时,在一个GTX 1070显卡中,总损失在4小时内从0.06下降到0.02。在我的例子中,我继续在原始的CageNet模型上进行训练,这个模型曾被训练来生成尼古拉斯凯奇的脸。
这种方法获得的最大优势是难以区分真实世界的人脸和图像。所有这些都可以通过几个小时的训练来实现,而游戏设计师们用当前的方法来完成这些工作。这意味着游戏发行商可以更快地推出新游戏,而不是花几十年的时间开发游戏。这也意味着电影公司可以节省数百万美元。
到目前为止,最明显的限制是,这些面孔是在电影中生成的,就像电影中的CGI技术一样,而游戏则要求它们实时生成。然而,一个重要的区别是,这种方法不需要任何人为的干预,一旦模型经过训练,就会产生结果,而唯一阻碍它的是生成输出图像所需的计算时间。我相信,在我们拥有轻量、不太深层的生成模型之前,它们可以在不影响输出质量的情况下运行得非常快。
如果像我们这样在图形设计方面没有经验的人都能在几个小时内就能开发出更好的人脸图像,我相信,如果游戏开发者在这个方向上投入大量资金,那么在不久的将来,它可能会改变游戏产业的面貌。