lllustrious:想要统治动漫艺术生成的AI模型

2025年01月14日 由 佚名 发表 76 0
Captura-de-pantalla-2025-01-13-172328-gID_7

Illustrious,这是一个基于Stable Diffusion XL的文本到图像模型,在AI艺术社区中变得如此主导,以至于最大的AI艺术模型中心Civitai不得不创建一个单独的类别来处理其庞大的资源生态系统。

而这一切仅在三个月内发生。其成功的秘诀?是回归基础并加以创新。

虽然像SD 3.5和Flux这样的新模型依赖于冗长的自然语言描述,Onoma AI,Illustrious的开发者,采取了不同的方法,通过利用Danbooru标签来帮助他们的模型理解概念,而无需通过复杂的字幕系统重新发明轮子。

该模型在Danbooru庞大的标记动漫图像库上进行训练,使其在理解视觉概念方面具有优势。

Danbooru系统中的每个标签代表特定元素,如角色特征、服装项目、姿势或背景,允许对生成的图像进行精确控制,而无需在冗长的描述上浪费宝贵的标记。

这些标签已经存在多年,并已成为艺术/动漫爱好者中图像分类的标准。


Captura-de-pantalla-2025-01-13-174447


该模型在理解照片特征方面高度准确和高效。

“这就像有一个艺术家,完全理解你想要什么,而不需要用段落来解释,”Vishnu,一位参与NSFW AI内容服务器的Discord成员告诉Decrypt。“你只需要知道正确的标签。”

在其核心,Illustrious使用了经典的SDXL架构,结合了CLIP ViT-L和OpenCLIP ViT-bigG的复杂双编码器系统来理解单词并将其与视觉等价物关联。

该模型能够以令人印象深刻的1536×1536分辨率处理和生成图像,并能够扩展到2048×2048甚至3744x3744而不会显著失去质量。

作为对比,原始的SDXL处理全高清分辨率(1024x1024)。

深入探讨

创建Illustrious的旅程是有条不紊和深思熟虑的。初始训练阶段,产生了0.1版本,处理了750万张1024×1024分辨率的图像,每批次192张图像。

团队仔细平衡了学习率,运行了20个周期(AI研究其数据集100%的过程)以建立坚实的基础。一旦结果足够令人满意,团队就继续增加数据集的大小和用于下一次迭代的分辨率。

在高级训练阶段,Illustrious真正开始闪耀。1.0版本将数据集扩展到1000万张图像,并将分辨率提高到1536×1536。

尽管他们将批次大小减少到128,但他们引入了复杂的标签操作策略和注册标记,这些基本变化定义了模型的卓越性能。

2.0版本的最终精炼阶段更进一步。使用2000万张图像在相同的高分辨率下进行工作,但批次大小增加到512,团队采用了多字幕方法,大大改善了文本与图像的对应关系。

结果是最好的二次元美少女生成器,具有良好的微调能力、提示遵循性、体面美学和高质量输出。

对于更精通技术的人,Illustrious的开发者还引入了许多有趣的技术,如“无丢弃标记”方法,确保特定标记在训练期间永远不会被排除;实现了准注册标记,使模型能够处理未知或奇怪的概念;余弦退火调度器,用于学习率;多级丢弃系统和输入扰动噪声增强,将一个简单的AI模型变成一个强大的工具。

如何使用Illustrious

Illustrious不需要任何额外步骤即可运行。

安装过程与任何其他SDXL模型相同。下载检查点并将其放入相应的文件夹,具体取决于您使用的UI。

Windows和Linux

  • 对于ComfyUI,路径是\models\checkpoints。
  • 对于A1111/Forge,路径是/models/Stable-diffusion。
  • 对于Fooocus,路径也是\models\checkpoints。

MacOS

Mac用户有类似的路径。然而,一些流行的面向macOS的UI需要额外的步骤。

  • Draw Things用户需要点击“模型”,进入“自定义”,然后点击“导入模型”。
  • 从那里,他们可以输入URL直接下载Illustrious,或者点击“导入自定义模型”以选择文件,如果他们下载了模型并将其保存在本地驱动器上。
  • Diffusion Bee的用户必须点击右上角的汉堡图标,然后点击“设置”,然后点击“添加新模型”,并选择他们本地下载的Illustrious检查点。

一旦模型加载,有三件事需要考虑。

  • 不要使用自然语言。记住依赖Danbooru标签并坚持旧的SDXL提示风格以获得更好的结果。
  • 不要使用Pony LoRas。由于模型使用不同的方法,最好使用Illustrious Loras以获得最佳结果。
  • 尽量不要使用原始的Illustrious模型,而是选择一些最受欢迎的微调。原始的Illustrious模型是一个基础模型,非常适合专注于您想要实现的结果的微调。它与SDXL、Pony或Flux相同。微调往往能产生更好的结果。

最佳Illustrious模型选择

有许多模型可供选择,所有这些都专注于不同的风格、美学和特征。

甚至还有像Noob AI这样的通用模型,它们使用Illustrious作为基础,并被微调者用来构建他们的模型。

然而,这里是我们针对不同需求的最佳选择。这些在提示理解、输出质量和易用性方面都很出色。所有样本都来自Civit AI社区,并且是无版权的。

文章来源:https://decrypt.co/300744/lllustrious-the-ai-model-that-wants-to-rule-anime-art-generation
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消