模型:
stabilityai/stable-diffusion-2-1-unclip
本模型卡片介绍的是与 Stable Diffusion v2-1 模型相关的内容,代码可在 here 处找到。
stable-diffusion-2-1-unclip 是 Stable Diffusion 2.1 的微调版本,除了文本提示外,修改后的版本还可以接受(带噪音的)CLIP图像嵌入,并可用于创建图像变体(示例),或与文本到图像的CLIP先验进行链式使用。可以通过 noise_level 参数指定添加到图像嵌入中的噪音程度(0 表示无噪音,1000 表示最大噪音)。
开发者:Robin Rombach, Patrick Esser
模型类型:基于扩散的文本到图像生成模型
语言:英语
模型描述:这是一个可用于根据文本提示生成和修改图像的模型。它是一个 Latent Diffusion Model ,使用了一个固定的、预训练的文本编码器( OpenCLIP-ViT/H )。
阅读更多信息的资源: GitHub Repository
引用为:
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
使用 ?'s Diffusers library 来运行 Stable Diffusion UnCLIP 2-1-small ,以一种简单高效的方式。
pip install diffusers transformers accelerate scipy safetensors
运行流程(如果不更换调度器,则会使用默认的 DDIM 运行,在本示例中我们将其替换为 DPMSolverMultistepScheduler):
from diffusers import DiffusionPipeline from diffusers.utils import load_image import torch pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1-unclip-small", torch_dtype=torch.float16) pipe.to("cuda") # get image url = "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/stable_unclip/tarsila_do_amaral.png" image = load_image(url) # run image variation image = pipe(image).images[0]
模型仅适用于研究目的。可能的研究领域和任务包括:
不适用的用途如下所述。
注意:本节最初取自 DALLE-MINI model card ,用于 Stable Diffusion v1,但同样适用于 Stable Diffusion v2。
该模型不应用于有意创建或传播可能导致人们感到敌对或疏远的图像的目的。这包括生成人们可以预见到会感到不安、困扰或冒犯的图像;或者传播历史上或当下的刻板印象的内容。
超出范围的使用该模型未经过训练,无法真实地传达人物或事件的内容,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用使用该模型生成对个人具有伤害意图的内容是对该模型的滥用。这包括但不限于:
图像生成模型的能力虽然令人印象深刻,但也可能强化或加剧社会偏见。Stable Diffusion 主要使用 LAION-2B(en) 的子集进行训练,该数据集的图像描述仅限于英语。其他语言社群和文化的文本和图像可能没有得到足够的考虑。这会影响模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,与英语提示相比,该模型使用非英语提示生成内容的能力显著较差。Stable Diffusion v2 反映并加剧了偏见,以至于无论输入或其意图如何,观众都必须慎重思考。
训练数据 开发者使用以下数据集训练模型:
Stable Diffusion v1 估计排放 根据该信息,使用 Machine Learning Impact calculator 在 Lacoste et al. (2019) 中提供的工具来估算以下硬件、运行时、云提供商和计算区域的碳排放量。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
本模型卡片由 Robin Rombach、Patrick Esser 和 David Ha 撰写,基于 Stable Diffusion v1 和 DALL-E Mini model card .