来自浙江大学的研究人员提出了一种用于真实感图像合成的方法,称为UrbanGIRAFFE,它可以控制相机姿态和场景内容。针对自由相机视点控制和场景编辑方面生成城市场景的挑战,该模型采用了一种组合和可控的策略,利用了一个粗糙的3D全景先验。它还包括了不可数的材质和可数的物体的布局分布。该方法将场景分解为物体、材质和天空,从而实现了多样的可控性,如大的相机运动、材质编辑和物体操作。
在条件图像合成中,先前的方法已经表现出色,特别是那些利用生成对抗网络(GANs)来生成真实感图像的方法。然而,现有的方法将图像合成的条件限制在语义分割图或布局上,主要关注以物体为中心的场景,忽略了复杂的、不对齐的城市场景。UrbanGIRAFFE是一个专门为城市场景设计的3D感知生成模型,该提议解决了这些局限性,提供了多样的可控性,包括大的相机运动、材质编辑和物体操作。
GANs已经在生成可控和真实感图像方面证明了其有效性。然而,现有的方法局限于以物体为中心的场景,需要在城市场景方面得到帮助,阻碍了自由的相机视点控制和场景编辑。UrbanGIRAFFE将场景分解为材质、物体和天空,在利用语义体素网格和物体布局进行多样的可控性之前,利用它们。
UrbanGIRAFFE创新地将城市场景分解为不可数的材质、可数的物体和天空,利用材质和物体的先验分布来解开复杂的城市环境。该模型具有一个条件材质生成器,利用语义体素网格作为材质先验,用于整合粗略的语义和几何信息。一个物体布局先验有助于从杂乱的场景中学习一个物体生成器。该模型采用对抗和重建损失进行端到端的训练,利用射线-体素和射线-盒子相交策略来优化采样位置,减少了所需的采样点的数量。
在全面的评估中,所提出的UrbanGIRAFFE方法在合成和真实的数据集上超越了各种2D和3D的基线,展示了卓越的可控性和保真度。在KITTI-360数据集上的定性评估显示,UrbanGIRAFFE在背景建模方面优于GIRAFFE,实现了更好的材质编辑和相机视点控制。在KITTI-360上的消融研究证实了UrbanGIRAFFE的架构组件的有效性,包括重建损失、物体判别器和创新的物体建模。在推理过程中采用移动平均模型进一步提高了生成图像的质量。
UrbanGIRAFFE创新地解决了可控的3D感知图像合成的复杂任务,实现了对城市场景的相机视点操作、语义布局和物体交互的卓越的多样性。利用一个3D全景先验,该模型有效地将场景分解为材质、物体和天空,促进了组合的生成建模。该方法强调了UrbanGIRAFFE在3D感知生成模型方面的进步,用于复杂的、无界的集合。未来的方向包括集成一个语义体素生成器,用于新颖的场景采样,以及通过光-环境颜色分离来探索光照控制。重建损失的重要性被强调,用于保持保真度和产生多样的结果,特别是对于不常遇到的语义类别。
UrbanGIRAFFE的未来工作包括结合一个语义体素生成器,用于新颖的场景采样,增强该方法生成多样和新颖的城市场景的能力。还计划通过将光和环境颜色分离,来探索光照控制,旨在为生成场景的视觉方面提供更细粒度的控制。改善生成图像质量的一种潜在的方法是在推理过程中使用一个移动平均模型。