Stability AI推出SDXL Turbo创新技术:实时高保真文本到图像生成

2023年11月29日 由 daydream 发表 447 0

Stability AI发布了他们在文本到图像生成技术上的最新创新——SDXL Turbo。该模型采用了一种新技术,名为“对抗性扩散蒸馏”(Adversarial Diffusion Distillation, ADD),它使模型具备了许多与生成对抗网络(GAN)相同的优势,如单步骤输出图像,同时避免了在其他蒸馏方法中常见的伪影或模糊问题。简单来说,SDXL Turbo可以从简短文本提示中实时创建出详尽且高保真度的图像。


微信截图_20231129115007


正如Stability AI的研究论文中详细介绍的那样,ADD技术使SDXL Turbo能够将文本到图像的过程缩短到仅需一个步骤,而先前的模型如SDXL 1.0则需要50个步骤来输出一张图像。这种效率的大幅提升显著减少了生成图像所需的计算能力和时间,而不影响视觉质量。


微信截图_20231129115016


在与其他最先进扩散模型的比较测试中,人类评估员一致认为SDXL Turbo的图像输出质量更高,而且所需的推断步骤远远少于其他模型。采用ADD技术,SDXL Turbo结合了扩散模型和生成对抗网络的优点,消除了常见的诸如图像模糊或过度平滑的问题。


实际上,SDXL Turbo的速度令人瞩目。在A100 GPU上,该模型可以在仅仅200毫秒多一点的时间内生成一张512x512像素的图像,这个时间包括了提示编码、去噪和解码。ADD蒸馏解锁了比多步骤方法快数个数量级的图像生成速度,为利用自然语言提示进行实时图像创建的应用打开了新的可能性。


然而,目前发布的SDXL Turbo版本确实存在一些值得注意的限制。图像的分辨率固定在512x512像素,模型无法渲染清晰的文本。面孔和人体形象可能无法总是正确地生成。因此,尽管SDXL Turbo通过其创新的ADD技术在文本到图像方面取得了迅速的进展,但也需要适当调整期望值。


如果您有兴趣尝试SDXL Turbo模型,Stability AI已经在Clipdrop上免费提供了这一服务。Beta版本演示展示了该模型的实时文本到图像生成能力,大多数互联网用户都可以访问。


SDXL Turbo目前是在一项非商业研究许可下发布的,允许个人进行非商业性使用。模型的权重和代码已在Hugging Face平台上提供。

文章来源:https://www.maginative.com/article/stability-ai-unveils-sdxl-turbo-for-real-time-text-to-image-generation/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消