lllustrious：想要统治动漫艺术生成的AI模型

2025年01月14日由佚名发表 604 0

Captura-de-pantalla-2025-01-13-172328-gID_7

Illustrious，这是一个基于Stable Diffusion XL的文本到图像模型，在AI艺术社区中变得如此主导，以至于最大的AI艺术模型中心Civitai不得不创建一个单独的类别来处理其庞大的资源生态系统。

而这一切仅在三个月内发生。其成功的秘诀？是回归基础并加以创新。

虽然像SD 3.5和Flux这样的新模型依赖于冗长的自然语言描述，Onoma AI，Illustrious的开发者，采取了不同的方法，通过利用Danbooru标签来帮助他们的模型理解概念，而无需通过复杂的字幕系统重新发明轮子。

该模型在Danbooru庞大的标记动漫图像库上进行训练，使其在理解视觉概念方面具有优势。

Danbooru系统中的每个标签代表特定元素，如角色特征、服装项目、姿势或背景，允许对生成的图像进行精确控制，而无需在冗长的描述上浪费宝贵的标记。

这些标签已经存在多年，并已成为艺术/动漫爱好者中图像分类的标准。

Captura-de-pantalla-2025-01-13-174447

该模型在理解照片特征方面高度准确和高效。

“这就像有一个艺术家，完全理解你想要什么，而不需要用段落来解释，”Vishnu，一位参与NSFW AI内容服务器的Discord成员告诉Decrypt。“你只需要知道正确的标签。”

在其核心，Illustrious使用了经典的SDXL架构，结合了CLIP ViT-L和OpenCLIP ViT-bigG的复杂双编码器系统来理解单词并将其与视觉等价物关联。

该模型能够以令人印象深刻的1536×1536分辨率处理和生成图像，并能够扩展到2048×2048甚至3744x3744而不会显著失去质量。

作为对比，原始的SDXL处理全高清分辨率（1024x1024）。

深入探讨

创建Illustrious的旅程是有条不紊和深思熟虑的。初始训练阶段，产生了0.1版本，处理了750万张1024×1024分辨率的图像，每批次192张图像。

团队仔细平衡了学习率，运行了20个周期（AI研究其数据集100%的过程）以建立坚实的基础。一旦结果足够令人满意，团队就继续增加数据集的大小和用于下一次迭代的分辨率。

在高级训练阶段，Illustrious真正开始闪耀。1.0版本将数据集扩展到1000万张图像，并将分辨率提高到1536×1536。

尽管他们将批次大小减少到128，但他们引入了复杂的标签操作策略和注册标记，这些基本变化定义了模型的卓越性能。

2.0版本的最终精炼阶段更进一步。使用2000万张图像在相同的高分辨率下进行工作，但批次大小增加到512，团队采用了多字幕方法，大大改善了文本与图像的对应关系。

结果是最好的二次元美少女生成器，具有良好的微调能力、提示遵循性、体面美学和高质量输出。

对于更精通技术的人，Illustrious的开发者还引入了许多有趣的技术，如“无丢弃标记”方法，确保特定标记在训练期间永远不会被排除；实现了准注册标记，使模型能够处理未知或奇怪的概念；余弦退火调度器，用于学习率；多级丢弃系统和输入扰动噪声增强，将一个简单的AI模型变成一个强大的工具。

如何使用Illustrious

Illustrious不需要任何额外步骤即可运行。

安装过程与任何其他SDXL模型相同。下载检查点并将其放入相应的文件夹，具体取决于您使用的UI。

Windows和Linux

对于ComfyUI，路径是\models\checkpoints。
对于A1111/Forge，路径是/models/Stable-diffusion。
对于Fooocus，路径也是\models\checkpoints。

MacOS

Mac用户有类似的路径。然而，一些流行的面向macOS的UI需要额外的步骤。

Draw Things用户需要点击“模型”，进入“自定义”，然后点击“导入模型”。
从那里，他们可以输入URL直接下载Illustrious，或者点击“导入自定义模型”以选择文件，如果他们下载了模型并将其保存在本地驱动器上。
Diffusion Bee的用户必须点击右上角的汉堡图标，然后点击“设置”，然后点击“添加新模型”，并选择他们本地下载的Illustrious检查点。

一旦模型加载，有三件事需要考虑。

不要使用自然语言。记住依赖Danbooru标签并坚持旧的SDXL提示风格以获得更好的结果。
不要使用Pony LoRas。由于模型使用不同的方法，最好使用Illustrious Loras以获得最佳结果。
尽量不要使用原始的Illustrious模型，而是选择一些最受欢迎的微调。原始的Illustrious模型是一个基础模型，非常适合专注于您想要实现的结果的微调。它与SDXL、Pony或Flux相同。微调往往能产生更好的结果。

最佳Illustrious模型选择

有许多模型可供选择，所有这些都专注于不同的风格、美学和特征。

甚至还有像Noob AI这样的通用模型，它们使用Illustrious作为基础，并被微调者用来构建他们的模型。

然而，这里是我们针对不同需求的最佳选择。这些在提示理解、输出质量和易用性方面都很出色。所有样本都来自Civit AI社区，并且是无版权的。

文章来源：https://decrypt.co/300744/lllustrious-the-ai-model-that-wants-to-rule-anime-art-generation

标签：

人工智能 AI动漫 lllustrious

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇马克·扎克伯格——“AI将很快编写大部分软件”

下一篇微软成立新工程团队专攻人工智能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来