生成式AI是我们现在都熟悉的一个词。近年来,生成式AI取得了很大的进展,并成为多种应用的关键工具。
扩散模型是生成式AI中的明星。它作为一种强大的生成式模型,彻底改变了图像合成和相关任务。这些模型在生成高质量和多样化的图像方面表现出色。与传统的生成模型(如GAN和VAE)不同,扩散模型通过迭代地改进噪声源来工作,从而实现稳定一致的图像生成。
扩散模型因其能够生成高保真度图像、具有增强的稳定性和减少训练中的模式崩溃的能力而受到广泛关注。这导致它们在图像合成、修复和风格转换等各个领域得到广泛采用和应用。
然而,它们并非完美无缺。尽管它有着强大的功能,但扩散模型面临的挑战之一在于如何有效地引导模型向基于文本描述的特定方向输出。然而通常很难通过文本提示准确描述偏好,有时提示不够明确,或者模型会忽略它们。因此,通常需要对生成的图像进行细化才可以使用。
作为使用者你最知道想让模型绘制什么。因此,理论上来说,你是评估生成图像质量的最佳人选;它与你的想象有多接近。如果我们能将这种反馈集成到图像生成流程中,以便模型能够理解我们想要看到的内容,那该多好呢?现在是时候见识一下FABRIC了。
FABRIC(通过基于注意力的参考图像调节进行反馈)是一种新颖的方法,可以将迭代反馈集成到扩散模型的生成过程中。
FABRIC是利用从先前生成或人类输入的正反馈图像进行的。这使得它能够利用参考图像进行调节来改进以后输出结果。这种迭代工作流程有助于根据用户偏好对生成的图像进行微调,提供更可控和交互式的文本到图像生成过程。
FABRIC受到ControlNet的启发,ControlNet引入了生成类似参考图像的新图像的能力。FABRIC 利用 U-Net 中的自我关注模块,使其能够 “关注 ”图像中的其他像素,并从参考图像中注入附加信息。通过将有噪音的参考图像通过稳定扩散的U-Net,计算得到用于注入参考图像的键和值。这些键和值存储在U-Net的自我关注模块中,使去噪过程能够关注参考图像并融入语义信息。
此外,FABRIC被扩展为包括多轮正反馈和负反馈,即对每张喜欢和不喜欢的图像分别进行 U-Net 处理,并根据反馈重新衡量注意力分数。反馈过程可以根据去噪步骤进行安排,允许对生成的图像进行迭代改进。