模型:

stabilityai/stable-diffusion-2-1-unclip

英文

Stable Diffusion v2-1-unclip 模型卡片

本模型卡片介绍的是与 Stable Diffusion v2-1 模型相关的内容,代码可在 here 处找到。

stable-diffusion-2-1-unclip 是 Stable Diffusion 2.1 的微调版本,除了文本提示外,修改后的版本还可以接受(带噪音的)CLIP图像嵌入,并可用于创建图像变体(示例),或与文本到图像的CLIP先验进行链式使用。可以通过 noise_level 参数指定添加到图像嵌入中的噪音程度(0 表示无噪音,1000 表示最大噪音)。

  • 使用 ? diffusers 进行操作

模型详细信息

  • 开发者:Robin Rombach, Patrick Esser

  • 模型类型:基于扩散的文本到图像生成模型

  • 语言:英语

  • 许可证: CreativeML Open RAIL++-M License

  • 模型描述:这是一个可用于根据文本提示生成和修改图像的模型。它是一个 Latent Diffusion Model ,使用了一个固定的、预训练的文本编码器( OpenCLIP-ViT/H )。

  • 阅读更多信息的资源: GitHub Repository

  • 引用为:

    @InProceedings{Rombach_2022_CVPR,
        author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2022},
        pages     = {10684-10695}
    }
    

示例

使用 ?'s Diffusers library 来运行 Stable Diffusion UnCLIP 2-1-small ,以一种简单高效的方式。

pip install diffusers transformers accelerate scipy safetensors

运行流程(如果不更换调度器,则会使用默认的 DDIM 运行,在本示例中我们将其替换为 DPMSolverMultistepScheduler):

from diffusers import DiffusionPipeline
from diffusers.utils import load_image
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1-unclip-small", torch_dtype=torch.float16)
pipe.to("cuda")

# get image
url = "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/stable_unclip/tarsila_do_amaral.png"
image = load_image(url)

# run image variation
image = pipe(image).images[0]

使用方法

直接使用

模型仅适用于研究目的。可能的研究领域和任务包括:

  • 部署可能生成有害内容的模型的安全性。
  • 探索和了解生成模型的局限性和偏见。
  • 生成艺术品,并在设计和其他艺术过程中使用。
  • 在教育或创意工具中的应用。
  • 生成模型的研究。

不适用的用途如下所述。

滥用、恶意使用和超出范围的使用

注意:本节最初取自 DALLE-MINI model card ,用于 Stable Diffusion v1,但同样适用于 Stable Diffusion v2。

该模型不应用于有意创建或传播可能导致人们感到敌对或疏远的图像的目的。这包括生成人们可以预见到会感到不安、困扰或冒犯的图像;或者传播历史上或当下的刻板印象的内容。

超出范围的使用

该模型未经过训练,无法真实地传达人物或事件的内容,因此使用该模型生成此类内容超出了该模型的能力范围。

滥用和恶意使用

使用该模型生成对个人具有伤害意图的内容是对该模型的滥用。这包括但不限于:

  • 生成贬低、使人失人格化或以其他方式造成不良影响的人或其所处环境、文化、宗教等的图像。
  • 故意提倡或传播歧视性内容或有害刻板印象。
  • 未经个人同意进行冒充。
  • 涉及未经人们同意的性内容。
  • 虚假信息和误导信息。
  • 极端暴力和血腥描绘。
  • 共享受版权或许可的材料,违反其使用条款。
  • 共享违反版权或许可的材料的修改版本,违反其使用条款。

限制和偏见

限制

  • 该模型无法达到完美的逼真度。
  • 该模型无法处理易读的文本。
  • 该模型在涉及合成性的更复杂任务上表现不佳,例如渲染与“一个红色立方体位于蓝色球体之上”相对应的图像。
  • 人脸和人一般可能无法被正确生成。
  • 该模型主要使用英文说明进行训练,在其他语言中的效果不如英语。
  • 模型的自动编码部分会有损失。
  • 该模型是在包含成人、暴力和色情内容的大规模数据集 LAION-5B 的子集上进行训练的。为了部分缓解这一问题,我们使用了 LAION 的 NFSW 检测器来过滤数据集(请参阅训练部分)。

偏见

图像生成模型的能力虽然令人印象深刻,但也可能强化或加剧社会偏见。Stable Diffusion 主要使用 LAION-2B(en) 的子集进行训练,该数据集的图像描述仅限于英语。其他语言社群和文化的文本和图像可能没有得到足够的考虑。这会影响模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,与英语提示相比,该模型使用非英语提示生成内容的能力显著较差。Stable Diffusion v2 反映并加剧了偏见,以至于无论输入或其意图如何,观众都必须慎重思考。

训练

训练数据 开发者使用以下数据集训练模型:

  • LAION-5B 和其子集(详细信息请参考 LAION-5B 的 NeurIPS 2022 论文和有关讨论。)。

环境影响

Stable Diffusion v1 估计排放 根据该信息,使用 Machine Learning Impact calculator Lacoste et al. (2019) 中提供的工具来估算以下硬件、运行时、云提供商和计算区域的碳排放量。

  • 硬件类型:A100 PCIe 40GB
  • 使用时间:200,000 小时
  • 云提供商:AWS
  • 计算区域:美国东部
  • 排放的碳(电力消耗 x 时间 x 基于电力网格位置的碳排放量):15,000 公斤 CO2 当量

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

本模型卡片由 Robin Rombach、Patrick Esser 和 David Ha 撰写,基于 Stable Diffusion v1 DALL-E Mini model card .