豹变猫?实时场景转变?NVIDIA多模式图像转换技术都能实现
2018年04月17日 由 浅浅 发表
24076
0
改变美洲豹身上的斑点似乎是个很有趣的想法,而这个想法也并非天方夜谭。通过NVIDIA新的加速GPU深度学习技术,无论是图片还是视频,甚至是实体美洲豹,都能使其变成猫、老虎或狗,而且可以实时转变,即动作也与原先一致。
一变多(图片或视频)给游戏开发者和制片人带来诸多便利,比如效率更高、花费时间更少,一变多得到更多经验。这一技术也为无人驾驶技术带来灵感,即快捷地产生多样的培训数据来处理更复杂多变的道路状况。
[video width="1280" height="720" mp4="https://www.atyun.com/uploadfile/2018/04/Multimodal-Unsupervised-Image-to-image-Translation.mp4"][/video]
一变多
研究人员在12月的神经信息处理系统研讨会上,提出了他们先人一步的早期工作——图像转换,更广为人知的是叫法是NIPS。论文中所描述的方法是逐一工作,将一个图像或视频映射到另一个上。
近期发表的论文中提出的新技术是多模式的(multimodal),可同时将一个图像转换成许多图像。多模式图像转换是强大的NVIDIA研究团队的最新成果。
想象力的提升
就像NIPS的研究一样,多模式图像转换依赖于两种深度学习技术——无人监管学习和生成对抗网络(GANs),让机器更有想象力,比如让其想象一个阳光明媚的街道在暴风雨中或冬季时的景貌。
现在,研究人员不用将夏季的驾驶视频对应到一个冬季的例子上,而是可以创造出一组不同的冬季驾驶视频,雪景也可以多种多样。这种技术在一天中不同的时间和其他天气条件下,都是以同样的方式进行处理,在阴天里提供阳光,或者把夜晚变成黎明、下午或黄昏时刻。另外,该技术在训练用于自动驾驶汽车的深层神经网络方面非常有价值。
在游戏世界里,多模式图像转换可以让电影工作室更高效地创造新角色或新世界。艺术家们可以丢下乏味的任务,去创造更为丰富复杂的故事。
多模式的无人监管图像对图像转换框架,即MUNIT,通过内容与风格来区分图像。例如,在一张猫的照片中,猫的姿势就是内容,而品种则是风格,姿势是固定的。如果把一幅家猫的照片转换成美洲豹或狗,那么动物的位置必须保持一致。品种及物种是要进行区别的,比如短毛家猫、美洲豹或柯利牧羊犬。
缺少数据也没问题
这项研究是建立在一种擅于产生视觉数据的深度学习方法上的。一个GAN使用两个相互竞争的神经网络:其中一个用来生成图像,另一个评估生成的图像的真假。而当数据不足时,GANs特别实用。
通常情况下,图像转换需要相应的图像数据集,如柯利牧羊犬、拉布拉多或老虎的图像,它们的位置必须与最初要转换的猫的形象完全相同。这类数据极难找到,而MUNIT的优点是它并不需要这些数据也可以完成任务。
用MUNIT很容易为自动驾驶汽车生成训练数据,而且不需要从相同的角度捕捉相同的视频片段,只需要同样的视角,以及在相同位置记录的所有接近的车流和其他细节。此外,GANs使人们不再需要对每个图像或视频的内容进行标记,节省了大量的时间和人力。