最近,大型语言模型(LLM)在人工智能(AI)社区中广受欢迎,这全得益于它们惊人的能力和性能。这些模型在人工智能子领域,包括自然语言处理、自然语言生成和计算机视觉的每个行业中都得到了应用。尽管计算机视觉,尤其是扩散模型已经获得极大关注,但要用有限的输入产生高保真、连贯的新视角仍然是一个挑战。
为了解决这个挑战,最近的研究中,字节跳动的一个研究团队提出了DiffPortrait3D,一个独特的条件扩散模型,设计用来从单张自然环境下的肖像创造出逼真的、3D多视角视图。DiffPortrait3D能够将单个二维(2D)无约束肖像重建成一个三维(3D)人脸表现。
该模型在产生新的相机角度下的真实面部细节时,保留了对象的身份和表情。这种方法的主要创新在于其零样本能力,使其能够泛化到广泛的面部肖像,包括那些未摆姿势的相机视角、极端的面部表情,以及各种艺术风格,而无需耗时的优化或微调程序。
DiffPortrait3D的基础组成部分是从2D扩散模型中获得的生成先验,这些模型已经在大型图片数据集上进行了预训练,并且充当着模型的渲染框架。一个分离的注意力控制机制有助于降噪,通过控制外观和相机姿态。参考图像的外观上下文被注入到冻结的UNets的自我关注层中,这些UNets是传播机制的重要部分。
DiffPortrait3D使用一个特殊的条件控制模块来改变渲染视图。该模块分析了从同一角度拍摄的对象的条件图像以解释相机姿态。这使得模型能够合成来自不同视角的一致面部特征。
为了进一步提升视觉一致性,还提出了一个可训练的跨视图关注模块。在面部表情激烈或相机视角未摆姿势可能会造成困难的情境中,该模块尤其有帮助。
还包含了一个独特的3D感知噪声生成机制,以确保在推理过程中的韧性。这一阶段增加了合成图片的总体稳定性和真实感。团队已经在具有挑战性的多视角和自然环境基准测试中评估和访问了DiffPortrait3D的性能,展示了在质量和数量上的先进水平。这种方法在处理单图像3D人像合成的挑战方面展示了其有效性,能在各种艺术风格和设置下生产出真实且高品质的面部重建。
团队分享了他们的主要贡献: