模型:

stabilityai/sdxl-vae

英文

SDXL - VAE

如何与?扩散器一起使用

通过在 StableDiffusionPipeline 中添加一个 vae 参数,您可以将这个经过精调的 VAE 解码器集成到现有的扩散器工作流中

from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionPipeline

model = "stabilityai/your-stable-diffusion-model"
vae = AutoencoderKL.from_pretrained("stabilityai/sdxl-vae")
pipe = StableDiffusionPipeline.from_pretrained(model, vae=vae)

模型

SDXL 是一个 latent diffusion model ,其中扩散在预训练、学习(和固定)的自编码器的潜在空间中进行。尽管潜在扩散模型完成了大部分语义合成工作,但我们可以通过改进自编码器的质量来提高生成图像中局部、高频细节的质量。为此,我们以较大的批量大小(256 vs 9)训练了与原始 Stable Diffusion 使用相同自编码器架构的模型,并使用指数移动平均(EMA)跟踪权重。所得到的自编码器在所有评估的重建指标上优于原始模型,见下表。

评估

SDXL-VAE vs 原始 kl-f8 VAE vs f8-ft-MSE

COCO 2017(256x256,val,5000 张图像)

Model rFID PSNR SSIM PSIM Link Comments
SDXL-VAE 4.42 24.7 +/- 3.9 0.73 +/- 0.13 0.88 +/- 0.27 1234321 as used in SDXL
original 4.99 23.4 +/- 3.8 0.69 +/- 0.14 1.01 +/- 0.28 1235321 as used in SD
ft-MSE 4.70 24.5 +/- 3.7 0.71 +/- 0.13 0.92 +/- 0.27 1236321 resumed with EMA from ft-EMA, emphasis on MSE (rec. loss = MSE + 0.1 * LPIPS), smoother outputs