模型:
stabilityai/stable-diffusion-2-1-unclip-small
这个模型卡片关注的是与 Stable Diffusion v2-1 模型相关的模型,代码库可在 here 上找到.
stable-diffusion-2-1-unclip-small 是 Stable Diffusion 2.1 的微调版本,修改后可以接受(带噪声的)CLIP图像嵌入,除了文本提示外,还可以用于创建图像变化(示例),或者可以与文本到图像的CLIP先验一起使用。可以通过 noise_level 参数指定添加到图像嵌入的噪声量(0 表示无噪声,1000 表示完全噪声)。
开发者: Robin Rombach, Patrick Esser
模型类型: 基于扩散的文本到图像生成模型
语言: 英语
模型描述: 这是一个可以根据文本提示生成和修改图像的模型。它是一个 Latent Diffusion Model ,使用了一个固定的预训练文本编码器( OpenCLIP-ViT/H )。
更多信息的资源: GitHub Repository
引用:
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
使用 ?'s Diffusers library 在简单高效的方式下运行 Stable Diffusion UnCLIP 2-1-small。
pip install diffusers transformers accelerate scipy safetensors
运行流程(如果未更换调度程序,将使用默认的 DDIM 运行,此示例中我们将其更换为 DPMSolverMultistepScheduler):
from diffusers import DiffusionPipeline from diffusers.utils import load_image import torch pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1-unclip-small", torch_dtype=torch.float16) pipe.to("cuda") # get image url = "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/stable_unclip/tarsila_do_amaral.png" image = load_image(url) # run image variation image = pipe(image).images[0]
该模型仅用于研究目的。可能的研究领域和任务包括
不适用的用途请参见以下描述。
注意: 本节内容原本来自 DALLE-MINI model card ,用于 Stable Diffusion v1,但同样适用于 Stable Diffusion v2。
不应使用该模型有意创建或传播会给人们带来敌意或疏远环境的图像。这包括生成人们可以预见到会感到困扰、苦恼或冒犯的图像,或者传播历史或当前的刻板印象的内容。
超出范围的用途该模型未经过训练,无法作为人们或事件的真实表现,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用使用该模型生成对个人具有伤害性的内容属于该模型的滥用。这包括但不限于:
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。Stable Diffusion 主要是在 LAION-2B(en) 的子集上进行训练的,该数据集的图像仅包含英文描述。来自使用其他语言的社群和文化的文本和图像可能无法得到充分考虑。这会影响模型的整体输出,因为白人和西方文化通常被设置为默认值。此外,与英语提示相比,模型生成非英语内容的能力显著较差。Stable Diffusion v2 对偏见进行了镜像和扩大,无论输入或意图如何,都必须提醒观看者要慎重。
训练数据 模型开发者使用以下数据集来训练模型:
Stable Diffusion v1 估计的排放 根据该信息,我们使用在 Machine Learning Impact calculator 中介绍的方法估算以下 CO2 排放量。硬件、运行时间、云提供商和计算地区被用于估算碳排放影响。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
该模型卡片由 Robin Rombach、Patrick Esser 和 David Ha 编写,并基于 Stable Diffusion v1 和 DALL-E Mini model card 。