模型:
stabilityai/stable-diffusion-2-base
该模型卡片主要介绍了 Stable Diffusion v2-base 模型,可在 here 上获得。
该模型是从头开始训练的,使用 LAION-5B 数据集中过滤掉明确的色情内容的子集,在分辨率 256x256 上进行了 550k 步的训练,使用 punsafe=0.1 和 aesthetic score >= 4.5 的 LAION-NSFW classifier 进行训练。然后在相同数据集上,在分辨率 >= 512x512 的图像上继续进行了 850k 步的训练。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
使用 ?'s Diffusers library 来简化和高效地运行 Stable Diffusion 2。
pip install diffusers transformers accelerate scipy safetensors
运行流程 (如果不更换调度器,将使用默认的 PNDM/PLMS 调度器运行,默认情况下我们将其更换为 EulerDiscreteScheduler):
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler import torch model_id = "stabilityai/stable-diffusion-2-base" # Use the Euler scheduler here instead scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler") pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16) pipe = pipe.to("cuda") prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png")
注意事项:
模型仅用于研究目的。可能的研究领域和任务包括:
排除的用途如下所述。
注意:本节内容原文摘自 DALLE-MINI model card ,用于 Stable Diffusion v1,但同样适用于 Stable Diffusion v2。
不得使用该模型有意地创建或传播人们可能会感到不悦、痛苦或冒犯的图像,包括生成人们可能预见到会引起不适、痛苦或冒犯的内容,以及传播历史或当前的刻板印象的内容。
超出范围的使用该模型没有被训练成为人物或事件的事实或真实的表达,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用滥用该模型生成对个体具有残忍性的内容是对该模型的一种滥用。这包括但不限于:
尽管图像生成模型的功能令人印象深刻,但它们也可能强化或加剧社会偏见。Stable Diffusion v2 主要是在包含英文描述的 LAION-2B(en) 子集上进行训练的,对使用其他语言的社区和文化的文本和图像可能不能得到充分考虑。这影响了模型的整体输出,因为白人和西方文化通常被视为默认设置。此外,模型生成非英语提示内容的能力明显不如生成英语提示内容的能力好。Stable Diffusion v2 反映并加剧了偏见,无论输入或其意图如何,都必须谨慎处理。
训练数据:模型开发者使用以下数据集训练模型:
训练过程:Stable Diffusion v2 是一个潜在的扩散模型,它将自编码器的潜在空间中的扩散模型与自编码器相结合进行训练。在训练过程中:
我们目前提供以下检查点:
使用不同的无分类器引导尺度 (1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0) 和 50 个步骤的 DDIM 采样步骤,显示了检查点的相对改进:
使用 50 个 DDIM 步骤和 COCO2017 验证集中的 10000 个随机提示进行评估,评估分辨率为 512x512。未针对 FID 分数进行优化。
Stable Diffusion v1 估计的排放量 基于这些信息,我们估计使用 Machine Learning Impact calculator 提供的 Lacoste et al. (2019) 来估算碳排放量。根据硬件、运行时间、云服务提供商和计算区域的使用情况,估算出碳排放量。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
此模型卡片的作者:Robin Rombach、Patrick Esser 和 David Ha,基于 Stable Diffusion v1 和 DALL-E Mini model card 的基础上编写。