模型:
stabilityai/sdxl-vae
通过在 StableDiffusionPipeline 中添加一个 vae 参数,您可以将这个经过精调的 VAE 解码器集成到现有的扩散器工作流中
from diffusers.models import AutoencoderKL from diffusers import StableDiffusionPipeline model = "stabilityai/your-stable-diffusion-model" vae = AutoencoderKL.from_pretrained("stabilityai/sdxl-vae") pipe = StableDiffusionPipeline.from_pretrained(model, vae=vae)
SDXL 是一个 latent diffusion model ,其中扩散在预训练、学习(和固定)的自编码器的潜在空间中进行。尽管潜在扩散模型完成了大部分语义合成工作,但我们可以通过改进自编码器的质量来提高生成图像中局部、高频细节的质量。为此,我们以较大的批量大小(256 vs 9)训练了与原始 Stable Diffusion 使用相同自编码器架构的模型,并使用指数移动平均(EMA)跟踪权重。所得到的自编码器在所有评估的重建指标上优于原始模型,见下表。
SDXL-VAE vs 原始 kl-f8 VAE vs f8-ft-MSE
Model | rFID | PSNR | SSIM | PSIM | Link | Comments |
---|---|---|---|---|---|---|
SDXL-VAE | 4.42 | 24.7 +/- 3.9 | 0.73 +/- 0.13 | 0.88 +/- 0.27 | 1234321 | as used in SDXL |
original | 4.99 | 23.4 +/- 3.8 | 0.69 +/- 0.14 | 1.01 +/- 0.28 | 1235321 | as used in SD |
ft-MSE | 4.70 | 24.5 +/- 3.7 | 0.71 +/- 0.13 | 0.92 +/- 0.27 | 1236321 | resumed with EMA from ft-EMA, emphasis on MSE (rec. loss = MSE + 0.1 * LPIPS), smoother outputs |