高分辨率图像合成与潜在扩散模型（LDM）

论文： High-Resolution Image Synthesis with Latent Diffusion Models (LDM)s

摘要：

通过将图像形成过程分解为一系列去噪自编码器的应用，扩散模型（DMs）在图像数据及其他领域上实现了最先进的合成结果。此外，它们的公式允许通过引导机制来控制图像生成过程而无需重新训练。然而，由于这些模型通常直接在像素空间中操作，优化强大的DMs通常需要消耗数百个GPU天，并且由于顺序评估，推断代价很高。为了在有限的计算资源上训练DM，同时保持其质量和灵活性，我们将其应用于强大的预训练自编码器的潜在空间中。与之前的工作不同，使用这种表示训练扩散模型首次可以在复杂性减少与细节保留之间达到接近最优点，极大地提升了视觉保真度。通过将交叉注意力层引入模型架构，我们将扩散模型转化为用于一般条件输入（如文本或边界框）的强大而灵活的生成器，并以卷积方式实现高分辨率合成。我们的潜在扩散模型（LDMs）在图像修复方面达到了新的技术水平，并在各种任务上具有极具竞争力的性能，包括无条件图像生成、语义场景合成和超分辨率，同时大大降低了与基于像素的DMs相比的计算需求。

安全性

请注意，文字到图像模型有时可能会生成有害内容。如果您有任何顾虑，请提出。

用法

# !pip install diffusers transformers
from diffusers import DiffusionPipeline

model_id = "CompVis/ldm-text2im-large-256"

# load model and scheduler
ldm = DiffusionPipeline.from_pretrained(model_id)

# run pipeline in inference (sample random noise and denoise)
prompt = "A painting of a squirrel eating a burger"
images = ldm([prompt], num_inference_steps=50, eta=0.3, guidance_scale=6).images

# save images
for idx, image in enumerate(images):
    image.save(f"squirrel-{idx}.png")

演示

Hugging Face Spaces

样本

作者:

CompVis

数据集大小:

5.73 GB