Stability AI推出了业界领先的图像生成模型Stable Diffusion XL 1.0
2023年07月27日 由 Neo 发表
81204
0
面对日益激烈的竞争和道德挑战,AI初创公司Stability AI继续完善其生成式AI模型。
今天,Stability AI宣布推出Stable Diffusion XL 1.0,这是一款文本到图像的模型,该公司称其为迄今为止“最先进”的版本。除了Stability的API和消费者应用程序、ClipDrop和DreamStudio之外,Stable Diffusion XL 1.0还在GitHub上以开源形式提供。与其前身相比,Stability声称,Stable Diffusion XL 1.0提供了“更鲜艳”和“准确”的颜色以及更好的对比度、阴影和光照效果。
在媒体采访时,Stability AI应用机器学习负责人Joe Penna指出,Stable Diffusion XL 1.0包含了35亿个参数,可以“在几秒钟内”以多种长宽比生成全一百万像素分辨率的图像。“参数”是模型从训练数据中学习的部分,基本上定义了模型解决问题的技能水平,在这里是生成图像问题。
上一代Stable Diffusion模型,Stable Diffusion XL 0.9,也能产生高分辨率的图像,但需要更多的计算能力。
“Stable Diffusion XL 1.0是可定制的,适合对概念和风格进行微调。”Penna说。“它也更容易使用,能够用基本的自然语言处理提示实现复杂的设计。”
Stable Diffusion XL 1.0在文本生成方面也有所改进。Penna说,虽然许多最好的文本到图像模型难以生成带有清晰标志的图像,更不用说书法或字体了,但Stable Diffusion XL 1.0能够实现“先进”的文本生成和易读性。
此外,Stable Diffusion XL 1.0支持修复(重建图像缺失的部分)、扩展(扩展现有图像)和“图像到图像”提示——这意味着用户可以输入一个图像,并添加一些文本提示来创建更详细的图片变化。而且,该模型能够理解复杂的、多部分的指令,只需简短的提示即可,而之前的Stable Diffusion模型则需要更长的文本提示。
“我们希望通过发布这个更强大的开源模型,不仅图像的分辨率能够成倍提高,而且能够带来更多的进步,让所有用户受益。”他补充说。
但是,与Stable Diffusion的前几个版本一样,这个模型也引发了棘手的道德问题。
理论上,Stable Diffusion XL 1.0的开源版本可以被不法分子用来生成有害的内容,比如未经同意的换脸视频。这在一定程度上反映了用来训练它的数据:来自网络的数百万张图片。
无数的教程演示了如何使用Stability AI自己的工具,包括DreamStudio,一个为Stable Diffusion提供开源前端的工具,来制作换脸视频。还有无数的教程展示了如何对基础的Stable Diffusion模型进行微调,生成色情内容。
Penna并没有否认滥用的可能性——并承认模型也包含了一些偏见。但他补充说,Stability AI已经采取了“额外的步骤”来减少有害内容的生成,比如对模型的训练数据进行“不安全”图像的过滤,在出现问题提示时发布新的警告,并尽可能地在工具中屏蔽单个问题词汇。
Stable Diffusion XL 1.0的训练集还包括了一些艺术家的作品,这些艺术家曾经抗议过包括Stability AI在内的一些公司使用他们的作品作为生成式AI模型的训练数据。Stability AI声称,它受到美国公平使用原则的法律保护。但这并没有阻止一些艺术家和素材公司Getty Images提起诉讼,以阻止这种做法。
Stability AI与初创公司Spawning合作,尊重这些艺术家的“退出”请求,表示它并没有从其训练数据集中删除所有被标记的艺术作品,但Stability AI表示“继续考虑艺术家们的要求”。
“我们正在不断改进Stable Diffusion的安全功能,并且认真地继续迭代这些措施。”Penna说“此外,我们尊重艺术家们要求从训练数据集中移除自己作品的请求。”
为了配合Stable Diffusion XL 1.0的发布,Stability AI还在其API中推出了一个测试版的微调功能,允许用户使用至少五张图片来“专门”生成特定人物、产品等方面的图像。该公司还将Stable Diffusion XL 1.0带到了Bedrock上,这是Amazon用于托管生成式AI模型的云平台——扩展了其之前与AWS宣布的合作。
在寻求合作伙伴和新功能的同时,Stability AI也遭遇了商业上的低迷——面对着来自OpenAI、Midjourney等公司的激烈竞争。据Semafor报道,在4月份,Stability AI已经筹集了超过1亿美元的风险投资,但却在烧钱——促使其在6月份关闭了2500万美元可转换票据,并寻找高管来帮助提升销售。
“最新的SDXL模型代表了Stability AI的创新能力,能够为AI社区提供最先进、开放获取的模型。”Stability AI首席执行官Emad Mostaque在一份新闻稿中说“在Amazon Bedrock上发布1.0,展示了我们与AWS紧密合作,为开发者和客户提供最佳解决方案的坚定承诺。”
来源:https://techcrunch.com/2023/07/26/stability-ai-releases-its-latest-image-generating-model-stable-diffusion-xl-1-0/