字节跳动推出DiffPortrait3D：突破单图合成技术实现多角度3D人像生成

2023年12月29日由 daydream 发表 1090 0

最近，大型语言模型（LLM）在人工智能（AI）社区中广受欢迎，这全得益于它们惊人的能力和性能。这些模型在人工智能子领域，包括自然语言处理、自然语言生成和计算机视觉的每个行业中都得到了应用。尽管计算机视觉，尤其是扩散模型已经获得极大关注，但要用有限的输入产生高保真、连贯的新视角仍然是一个挑战。

微信截图_20231229112452

为了解决这个挑战，最近的研究中，字节跳动的一个研究团队提出了DiffPortrait3D，一个独特的条件扩散模型，设计用来从单张自然环境下的肖像创造出逼真的、3D多视角视图。DiffPortrait3D能够将单个二维（2D）无约束肖像重建成一个三维（3D）人脸表现。

该模型在产生新的相机角度下的真实面部细节时，保留了对象的身份和表情。这种方法的主要创新在于其零样本能力，使其能够泛化到广泛的面部肖像，包括那些未摆姿势的相机视角、极端的面部表情，以及各种艺术风格，而无需耗时的优化或微调程序。

DiffPortrait3D的基础组成部分是从2D扩散模型中获得的生成先验，这些模型已经在大型图片数据集上进行了预训练，并且充当着模型的渲染框架。一个分离的注意力控制机制有助于降噪，通过控制外观和相机姿态。参考图像的外观上下文被注入到冻结的UNets的自我关注层中，这些UNets是传播机制的重要部分。

DiffPortrait3D使用一个特殊的条件控制模块来改变渲染视图。该模块分析了从同一角度拍摄的对象的条件图像以解释相机姿态。这使得模型能够合成来自不同视角的一致面部特征。

为了进一步提升视觉一致性，还提出了一个可训练的跨视图关注模块。在面部表情激烈或相机视角未摆姿势可能会造成困难的情境中，该模块尤其有帮助。

还包含了一个独特的3D感知噪声生成机制，以确保在推理过程中的韧性。这一阶段增加了合成图片的总体稳定性和真实感。团队已经在具有挑战性的多视角和自然环境基准测试中评估和访问了DiffPortrait3D的性能，展示了在质量和数量上的先进水平。这种方法在处理单图像3D人像合成的挑战方面展示了其有效性，能在各种艺术风格和设置下生产出真实且高品质的面部重建。

团队分享了他们的主要贡献：

介绍了一种独特的零样本方法，通过扩展2D稳定扩散，从单个肖像创造3D一致的新视角。
该方法在独特视角合成方面展示了令人印象深刻的成就，支持各种外观、表情、态度和风格的肖像合成，而无需繁琐的微调。
它使用一个明确分离的控制系统来独立处理外观和摄像头视角，允许高效的摄像头操控，而不影响主体的表情或身份。
该方法结合了一个跨视角注意力模块和一个3D感知噪音创建技术，提供3D视图中的长距离一致性。

文章来源：https://www.marktechpost.com/2023/12/27/bytedance-announces-diffportrait3d-a-novel-zero-shot-view-synthesis-ai-method-that-extends-2d-stable-diffusion-for-generating-3d-consistent-novel-views-given-as-little-as-a-single-portrait/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta GenAI推出Fairy：突破性AI视频编辑框架

下一篇 Midjourney计划未来几个月内发布AI视频生成模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来