模型:
stabilityai/stable-diffusion-2-depth
本模型卡主要介绍与Stable Diffusion v2模型相关的内容,可在 here 下载。
该stable-diffusion-2-depth模型是从 stable-diffusion-2-base (512-base-ema.ckpt)中恢复,并经过20万步的微调。添加了一个额外的输入通道,用于处理由 MiDaS (dpt_hybrid)生成的(相对)深度预测,作为附加的条件。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
使用 ?'s Diffusers library 以简单高效的方式运行 Stable Diffusion 2。
pip install -U git+https://github.com/huggingface/transformers.git pip install diffusers transformers accelerate scipy safetensors
运行管道(如果您不交换调度程序,默认使用DDIM,这里我们将其替换为EulerDiscreteScheduler):
import torch import requests from PIL import Image from diffusers import StableDiffusionDepth2ImgPipeline pipe = StableDiffusionDepth2ImgPipeline.from_pretrained( "stabilityai/stable-diffusion-2-depth", torch_dtype=torch.float16, ).to("cuda") url = "http://images.cocodataset.org/val2017/000000039769.jpg" init_image = Image.open(requests.get(url, stream=True).raw) prompt = "two tigers" n_propmt = "bad, deformed, ugly, bad anotomy" image = pipe(prompt=prompt, image=init_image, negative_prompt=n_propmt, strength=0.7).images[0]
注意:
此模型仅供研究目的使用。可能的研究领域和任务包括
以下是不包括在内的用途。
注意:此部分最初取自 DALLE-MINI model card ,用于Stable Diffusion v1,但对于Stable Diffusion v2同样适用。
不得使用该模型有意创建或传播人们会预见到的令人不安、苦恼或冒犯的图像,或者传播历史上或现在的刻板印象的内容。
不在范围内的使用该模型的训练目标不是真实信息或事件的准确表示,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用滥用此模型生成对个人残忍的内容是对该模型的滥用。包括但不限于:
尽管图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。Stable Diffusion vw主要是在 LAION-2B(en) 的子集上进行训练的,该子集仅包含英语描述的图像。其他语言社区和文化的文本和图像可能没有得到充分的考虑。这会影响模型的整体输出,因为白人和西方文化通常被设定为默认设置。此外,与使用英语提示相比,模型使用非英语提示生成内容的能力要差得多。Stable Diffusion v2反映并加剧了偏见,以至于无论输入或意图如何都必须谨慎使用。
训练数据 模型开发者使用以下数据集训练模型:
训练过程 Stable Diffusion v2是一种潜在扩散模型,它将自编码器与在自编码器的潜在空间中训练的扩散模型相结合。在训练过程中:
我们目前提供以下检查点:
使用不同的无分类器引导尺度(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和50个步骤的DDIM采样步骤对检查点进行了评估,显示了相对改进:
使用50个DDIM步骤和来自COCO2017验证集的10000个随机提示进行评估,评估分辨率为512x512。不针对FID分数进行优化。
Stable Diffusion v1估计的排放基于根据硬件、运行时间、云提供商和计算区域使用 Machine Learning Impact calculator 进行的。功耗估计了电力消耗、时间和基于电力网格位置的产生的二氧化碳排放。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
该模型卡由Robin Rombach、Patrick Esser和David Ha编写,基于 Stable Diffusion v1 和 DALL-E Mini model card 。