Stability AI推出SDXL Turbo创新技术：实时高保真文本到图像生成

2023年11月29日由 daydream 发表 597 0

Stability AI发布了他们在文本到图像生成技术上的最新创新——SDXL Turbo。该模型采用了一种新技术，名为“对抗性扩散蒸馏”(Adversarial Diffusion Distillation, ADD)，它使模型具备了许多与生成对抗网络(GAN)相同的优势，如单步骤输出图像，同时避免了在其他蒸馏方法中常见的伪影或模糊问题。简单来说，SDXL Turbo可以从简短文本提示中实时创建出详尽且高保真度的图像。

微信截图_20231129115007

正如Stability AI的研究论文中详细介绍的那样，ADD技术使SDXL Turbo能够将文本到图像的过程缩短到仅需一个步骤，而先前的模型如SDXL 1.0则需要50个步骤来输出一张图像。这种效率的大幅提升显著减少了生成图像所需的计算能力和时间，而不影响视觉质量。

微信截图_20231129115016

在与其他最先进扩散模型的比较测试中，人类评估员一致认为SDXL Turbo的图像输出质量更高，而且所需的推断步骤远远少于其他模型。采用ADD技术，SDXL Turbo结合了扩散模型和生成对抗网络的优点，消除了常见的诸如图像模糊或过度平滑的问题。

实际上，SDXL Turbo的速度令人瞩目。在A100 GPU上，该模型可以在仅仅200毫秒多一点的时间内生成一张512x512像素的图像，这个时间包括了提示编码、去噪和解码。ADD蒸馏解锁了比多步骤方法快数个数量级的图像生成速度，为利用自然语言提示进行实时图像创建的应用打开了新的可能性。

然而，目前发布的SDXL Turbo版本确实存在一些值得注意的限制。图像的分辨率固定在512x512像素，模型无法渲染清晰的文本。面孔和人体形象可能无法总是正确地生成。因此，尽管SDXL Turbo通过其创新的ADD技术在文本到图像方面取得了迅速的进展，但也需要适当调整期望值。

如果您有兴趣尝试SDXL Turbo模型，Stability AI已经在Clipdrop上免费提供了这一服务。Beta版本演示展示了该模型的实时文本到图像生成能力，大多数互联网用户都可以访问。

SDXL Turbo目前是在一项非商业研究许可下发布的，允许个人进行非商业性使用。模型的权重和代码已在Hugging Face平台上提供。

文章来源：https://www.maginative.com/article/stability-ai-unveils-sdxl-turbo-for-real-time-text-to-image-generation/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Stability AI推出AI视频生成模型Stable Video Diffusion

下一篇微软Paint集成AI：Cocreator图像生成登陆Windows 11

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来