在AI图像生成领域,DALL-E和Midjourney等工具正在占据王座——并不仅仅是因为它们的高分辨率性能。这些模型的训练需要如此巨大的投资和资源,以至于不可避免地导致了集中式服务和按次付费的访问方式。
萨里大学开发的一款新AI工具旨在扭转这一趋势,并通过向更广泛的受众开放高分辨率图像生成来实现技术民主化。
这款被称为DemoFusion的模型允许用户生成高质量图像,而无需订阅服务,或拥有一台非常强大的计算机。实际上,该系统仅需要消费级RTX 3090 GPU,这可以在任何中档游戏PC或Mac M1中找到。
这款AI本质上是对Stable Diffusion XL (SDXL)开源模型的即插即用扩展,该模型以1024×1024的分辨率生成图像。DemoFusion能够实现4倍、16倍,甚至更高倍数的分辨率增加——只需几行简单的代码,而无需任何额外的训练。团队称唯一的权衡是“需要多一点耐心”。我们在TNW尝试了一下,大约需要六分钟。
左:SDXL生成的结果。右:DemoFusion生成的结果。图片来源:萨里大学
为了实现这些高分辨率的结果,科学家们首先生成了低分辨率的图像,然后使用一种称为渐进式上采样的过程进行增强。这通过跨图像的片段工作来提高SDXL的细节和分辨率。
“我们独特的技术首次允许用户增强他们的AI生成图像,而无需庞大的计算能力,或对模型进行重新训练,”易哲松教授说。
“数字艺术和图像是一种强大的媒介,每个人都应该有权接触——而不仅仅是少数富有的公司。这就是为什么我们使DemoFusion公开可用。我们相信它能丰富我们的生活,每个人都应该能够使用它。”
DemoFusion是否会获得足够的吸引力以与OpenAI的DALL-E等巨头竞争尚待观察,但其创建是向公众和更广泛的技术社区开放AI图像生成潜力的重要一步。