Illustrious,这是一个基于Stable Diffusion XL的文本到图像模型,在AI艺术社区中变得如此主导,以至于最大的AI艺术模型中心Civitai不得不创建一个单独的类别来处理其庞大的资源生态系统。
而这一切仅在三个月内发生。其成功的秘诀?是回归基础并加以创新。
虽然像SD 3.5和Flux这样的新模型依赖于冗长的自然语言描述,Onoma AI,Illustrious的开发者,采取了不同的方法,通过利用Danbooru标签来帮助他们的模型理解概念,而无需通过复杂的字幕系统重新发明轮子。
该模型在Danbooru庞大的标记动漫图像库上进行训练,使其在理解视觉概念方面具有优势。
Danbooru系统中的每个标签代表特定元素,如角色特征、服装项目、姿势或背景,允许对生成的图像进行精确控制,而无需在冗长的描述上浪费宝贵的标记。
这些标签已经存在多年,并已成为艺术/动漫爱好者中图像分类的标准。
该模型在理解照片特征方面高度准确和高效。
“这就像有一个艺术家,完全理解你想要什么,而不需要用段落来解释,”Vishnu,一位参与NSFW AI内容服务器的Discord成员告诉Decrypt。“你只需要知道正确的标签。”
在其核心,Illustrious使用了经典的SDXL架构,结合了CLIP ViT-L和OpenCLIP ViT-bigG的复杂双编码器系统来理解单词并将其与视觉等价物关联。
该模型能够以令人印象深刻的1536×1536分辨率处理和生成图像,并能够扩展到2048×2048甚至3744x3744而不会显著失去质量。
作为对比,原始的SDXL处理全高清分辨率(1024x1024)。
创建Illustrious的旅程是有条不紊和深思熟虑的。初始训练阶段,产生了0.1版本,处理了750万张1024×1024分辨率的图像,每批次192张图像。
团队仔细平衡了学习率,运行了20个周期(AI研究其数据集100%的过程)以建立坚实的基础。一旦结果足够令人满意,团队就继续增加数据集的大小和用于下一次迭代的分辨率。
在高级训练阶段,Illustrious真正开始闪耀。1.0版本将数据集扩展到1000万张图像,并将分辨率提高到1536×1536。
尽管他们将批次大小减少到128,但他们引入了复杂的标签操作策略和注册标记,这些基本变化定义了模型的卓越性能。
2.0版本的最终精炼阶段更进一步。使用2000万张图像在相同的高分辨率下进行工作,但批次大小增加到512,团队采用了多字幕方法,大大改善了文本与图像的对应关系。
结果是最好的二次元美少女生成器,具有良好的微调能力、提示遵循性、体面美学和高质量输出。
对于更精通技术的人,Illustrious的开发者还引入了许多有趣的技术,如“无丢弃标记”方法,确保特定标记在训练期间永远不会被排除;实现了准注册标记,使模型能够处理未知或奇怪的概念;余弦退火调度器,用于学习率;多级丢弃系统和输入扰动噪声增强,将一个简单的AI模型变成一个强大的工具。
Illustrious不需要任何额外步骤即可运行。
安装过程与任何其他SDXL模型相同。下载检查点并将其放入相应的文件夹,具体取决于您使用的UI。
Windows和Linux
MacOS
Mac用户有类似的路径。然而,一些流行的面向macOS的UI需要额外的步骤。
一旦模型加载,有三件事需要考虑。
有许多模型可供选择,所有这些都专注于不同的风格、美学和特征。
甚至还有像Noob AI这样的通用模型,它们使用Illustrious作为基础,并被微调者用来构建他们的模型。
然而,这里是我们针对不同需求的最佳选择。这些在提示理解、输出质量和易用性方面都很出色。所有样本都来自Civit AI社区,并且是无版权的。