谷歌与MIT开发AI系统,生成逼真的3D模型图像,带有光照和反射
2018年12月05日 由 浅浅 发表
234348
0
近年来,GAN的研究突飞猛进,特别是在机器视觉领域。可以合成逼真的三维物体模型的AI并不是那样遥不可及。MIT CSAIL和谷歌的研究人员在NeurIPS 2018会议上提交了论文“Visual Object Networks: Image Generation with Disentangled 3D Representation”,描述了一个生成式AI系统,能够用纹理创造逼真的形状。
该AI系统名为视觉对象网络(VON),不仅可以生成比某些最先进的方法更逼真的图像,还可以进行形状和纹理编辑,视点偏移,以及其他三维调整。
研究人员表示,“现代深度生成模型学会合成逼真的图像,大多数计算模型只专注于生成2D图像,忽略了世界的3D本质,这种仅支持2D的视角限制了它们在许多领域的实际应用,例如合成数据生成,机器人学习,虚拟现实和游戏。”
VON通过联合合成三维形状和二维图像来解决这个问题,研究人员将其称为“解决对象表征”。图像生成模型被分解为三个因素:形状,视点和纹理。在计算2.5D草图和添加纹理之前,首先学习三维形状的合成。
重要的是,因为这三个因素是条件独立的,所以模型不需要二维和三维形状之间的配对数据。这使得团队能够在大规模的二维图像和三维形状集合上进行训练,如Pix3D,谷歌图像搜索和ShapeNet(包含55个对象类别的数千个CAD模型)。
为了让VON学习如何生成形状,该团队训练了GAN,在上述三维形状数据集上,试图区分生成的样本和现实世界样本。
经过大约两到三天的训练,AI系统始终如一地生成逼真的模型,尺寸为128 x 128 x 128,具有逼真的反射,环境照度和反照率(漫射光或辐射的测量)。
为了评估图像生成模型,团队计算了用于生成的三维模型的Fréchet Inception Distance,即与人类感知相关的度量。此外,他们还向亚马逊的Mechanical Turk的5名受试者展示了来自VON和最先进模型生成的200对图像,他们的任务是选择更逼真的结果。
VON表现非常出色。与所有AI模型相比,它具有最低的Fréchet Inception Distance,并且Mechanical Turk受访者74%到85%选择了其生成的图像。
研究人员未来的工作是由粗略到精细的建模,以更高的分辨率生成形状和图像,将纹理分解为光照和外观,并合成自然场景。
“我们的主要想法是将图像生成过程分解为三个因素:形状,视点和纹理,这种解决3D表征使我们能够在对抗性学习框架下,从3D和2D视觉数据集合中学习模型。与现有的2D生成模型相比,我们的模型合成了更逼真的图像。它还允许各种不同的3D操作,而以前的2D方法是无法实现的。”
论文:papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations.pdf