模型:

stabilityai/stable-diffusion-2-1-unclip-small

英文

Stable Diffusion v2-1-unclip (small) 模型卡片

这个模型卡片关注的是与 Stable Diffusion v2-1 模型相关的模型,代码库可在 here 上找到.

stable-diffusion-2-1-unclip-small 是 Stable Diffusion 2.1 的微调版本,修改后可以接受(带噪声的)CLIP图像嵌入,除了文本提示外,还可以用于创建图像变化(示例),或者可以与文本到图像的CLIP先验一起使用。可以通过 noise_level 参数指定添加到图像嵌入的噪声量(0 表示无噪声,1000 表示完全噪声)。

  • 使用它与 ? 扩散器(diffusers) 一起使用

模型详情

  • 开发者: Robin Rombach, Patrick Esser

  • 模型类型: 基于扩散的文本到图像生成模型

  • 语言: 英语

  • 许可证: CreativeML Open RAIL++-M License

  • 模型描述: 这是一个可以根据文本提示生成和修改图像的模型。它是一个 Latent Diffusion Model ,使用了一个固定的预训练文本编码器( OpenCLIP-ViT/H )。

  • 更多信息的资源: GitHub Repository

  • 引用:

    @InProceedings{Rombach_2022_CVPR,
        author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2022},
        pages     = {10684-10695}
    }
    

示例

使用 ?'s Diffusers library 在简单高效的方式下运行 Stable Diffusion UnCLIP 2-1-small。

pip install diffusers transformers accelerate scipy safetensors

运行流程(如果未更换调度程序,将使用默认的 DDIM 运行,此示例中我们将其更换为 DPMSolverMultistepScheduler):

from diffusers import DiffusionPipeline
from diffusers.utils import load_image
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1-unclip-small", torch_dtype=torch.float16)
pipe.to("cuda")

# get image
url = "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/stable_unclip/tarsila_do_amaral.png"
image = load_image(url)

# run image variation
image = pipe(image).images[0]

用途

直接使用

该模型仅用于研究目的。可能的研究领域和任务包括

  • 模型的安全部署,这些模型有可能生成有害内容。
  • 探索和理解生成模型的限制和偏见。
  • 在设计和其他艺术过程中生成艺术品并使用它们。
  • 在教育或创造性工具中应用。
  • 生成模型的研究。

不适用的用途请参见以下描述。

滥用、恶意使用和超出范围的用途

注意: 本节内容原本来自 DALLE-MINI model card ,用于 Stable Diffusion v1,但同样适用于 Stable Diffusion v2。

不应使用该模型有意创建或传播会给人们带来敌意或疏远环境的图像。这包括生成人们可以预见到会感到困扰、苦恼或冒犯的图像,或者传播历史或当前的刻板印象的内容。

超出范围的用途

该模型未经过训练,无法作为人们或事件的真实表现,因此使用该模型生成此类内容超出了该模型的能力范围。

滥用和恶意使用

使用该模型生成对个人具有伤害性的内容属于该模型的滥用。这包括但不限于:

  • 生成贬低、人格侮辱或以其他方式对人们及其环境、文化、宗教等有害的表现。
  • 故意促进或传播歧视性内容或有害刻板印象。
  • 未经个人同意而冒充个人。
  • 未经可能会看到的人同意的性内容。
  • 错误和虚假信息
  • 极端暴力和血腥的表现
  • 共享受版权保护的或违反其使用条款的许可内容。
  • 共享违反版权保护的或许可内容的修改内容。

限制和偏见

限制

  • 该模型无法达到完美的照片逼真度
  • 该模型无法渲染可读的文本
  • 该模型在涉及组合性的更复杂任务上表现不佳,比如根据“一个红色的立方体放在一个蓝色的球上”生成图像
  • 人脸和人一般情况下可能无法正确生成
  • 该模型主要使用英文标题进行训练,并且在其他语言上的效果不佳
  • 该模型的自动编码部分有损失
  • 该模型是在包含成人、暴力和性内容的大规模数据集 LAION-5B 的子集上进行训练的。为了部分减轻这个问题,我们使用 LAION 的 NFSW 检测器对数据集进行了过滤(请参阅“训练”部分)

偏见

虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。Stable Diffusion 主要是在 LAION-2B(en) 的子集上进行训练的,该数据集的图像仅包含英文描述。来自使用其他语言的社群和文化的文本和图像可能无法得到充分考虑。这会影响模型的整体输出,因为白人和西方文化通常被设置为默认值。此外,与英语提示相比,模型生成非英语内容的能力显著较差。Stable Diffusion v2 对偏见进行了镜像和扩大,无论输入或意图如何,都必须提醒观看者要慎重。

训练

训练数据 模型开发者使用以下数据集来训练模型:

  • LAION-5B 和子集(详细信息如下)。训练数据还使用了 LAION 的 NSFW 检测器进行了过滤,使用 "p_unsafe" 得分为 0.1 (保守)。更多详情请参阅 LAION-5B 的 NeurIPS 2022 论文以及对该主题的审稿人讨论。

环境影响

Stable Diffusion v1 估计的排放 根据该信息,我们使用在 Machine Learning Impact calculator 中介绍的方法估算以下 CO2 排放量。硬件、运行时间、云提供商和计算地区被用于估算碳排放影响。

  • 硬件类型: A100 PCIe 40GB
  • 使用小时数:200000
  • 云提供商:AWS
  • 计算区域:US-east
  • 排放的碳量(功耗 x 时间 x 基于电网位置的碳产量):15000 kg CO2 eq.

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

该模型卡片由 Robin Rombach、Patrick Esser 和 David Ha 编写,并基于 Stable Diffusion v1 DALL-E Mini model card