模型:
stabilityai/stable-diffusion-2
该模型卡关注的是与 Stable Diffusion v2 模型相关的模型,可在此处 here 获取。
stable-diffusion-2 模型是从 stable-diffusion-2-base (512-base-ema.ckpt)中恢复,并在相同数据集上进行 150,000 步的训练。然后在 768x768 的图像上继续训练 140,000 步。
开发者:Robin Rombach、Patrick Esser
模型类型:基于扩散的文本到图像生成模型
语言:英语
模型描述:该模型可用于基于文本提示生成和修改图像。它是一个 Latent Diffusion Model ,使用固定的预训练文本编码器( OpenCLIP-ViT/H )。
更多信息的资源: GitHub Repository 。
引用方式:
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
使用 ?'s Diffusers library 以简单高效的方式运行 Stable Diffusion 2。
pip install diffusers transformers accelerate scipy safetensors
运行流程(如果不更换调度程序,将使用默认的 DDIM,在此示例中我们将其更换为 EulerDiscreteScheduler):
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler model_id = "stabilityai/stable-diffusion-2" # Use the Euler scheduler here instead scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler") pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16) pipe = pipe.to("cuda") prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png")
注意:
该模型仅供研究目的使用。可能的研究领域和任务包括
排除的用途如下所述。
注意:本节最初取自 DALLE-MINI model card ,用于 Stable Diffusion v1,但同样适用于 Stable Diffusion v2 。
该模型不应用于故意创建或传播人们可能会感到困扰、压抑或冒犯的图像,或传播历史或当前的刻板印象。
超出范围的使用该模型不是为人们或事件的真实陈述而训练的,因此使用该模型生成此类内容超出了该模型的能力范围。
误用和恶意使用使用该模型生成对个人具有残忍性的内容是对该模型的误用。这包括但不限于:
虽然图像生成模型的功能令人印象深刻,但它们也可能强化或加剧社会偏见。Stable Diffusion 主要是在 LAION-2B(en) 的子集上训练的,该数据集由仅限英语描述的图像组成。其他使用其他语言的社区和文化的文本和图像可能被忽视。这会影响模型的整体输出,因为白人和西方文化通常被默认设置为标准。此外,与使用英语提示相比,模型生成非英语内容的能力显著较差。不论输入或其意图如何,Stable Diffusion v2 都会反映和加剧偏见,因此必须谨慎观看。
训练数据 开发者使用以下数据集来训练模型:
训练过程 Stable Diffusion v2 是一个潜在扩散模型,它将自动编码器和在自动编码器的潜在空间中训练的扩散模型相结合。训练过程如下:
我们目前提供以下检查点:
使用不同的无分类器引导尺度(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和 50 步的 DDIM 采样步骤,评估了各个检查点的相对改进:
使用 50 步的 DDIM 和来自 COCO2017 验证集的 10000 个随机提示进行评估,评估分辨率为 512x512。未针对 FID 分数进行优化。
Stable Diffusion v1 估计的碳排放量 根据这些信息,我们使用 Machine Learning Impact calculator 在 Lacoste et al. (2019) 中介绍的方法估计以下二氧化碳排放量。根据硬件、运行时间、云服务提供商和计算区域,估计出的碳排放量如下:
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
本模型卡由 Robin Rombach、Patrick Esser 和 David Ha 编写,基于 Stable Diffusion v1 和 DALL-E Mini model card 。