AI 绘画实战指南 Vol.2:Stable Diffusion 进阶插件
成功部署 Stable Diffusion(参考 《AI 绘画实战指南 Vol.1》)后,真正的挑战在于如何从“随机抽卡”转向“可控创作”。这取决于三点:理解模型差异、掌握插件控制、建立稳定的工作流。
模型与插件构成了 Stable Diffusion 的核心生态。
本文重点解决三个问题:
- 模型获取与管理。
- WebUI 原生潜能挖掘。
- 关键插件的高效应用。
模型管理:Civitai 与 LoRA
Civitai(C 站) 汇集了全球主流的 Stable Diffusion 模型,涵盖二次元、写实、人像、插画及概念设计等多个方向。
下载模型后,需将其存入 WebUI 指定目录方可生效。
大模型(Checkpoints / Base Models)
决定画面的整体风格与基础能力。
- 格式:
.safetensors/.ckpt - 体积:2 GB – 6 GB
- 路径:
models/Stable-diffusion - 提示:切换模型时,建议同步调整提示词结构、采样器与 CFG 值,避免沿用旧参数导致效果不佳。
微调模型(LoRA)
在不改变大模型基底的前提下,注入特定人物、画风、服饰或概念(如机甲、水墨风)。
- 格式:
.safetensors - 体积:10 MB – 300 MB
- 路径:
models/Lora - 用法:在提示词中调用,如
<lora:mecha_style:0.8>。
VAE(Variational Autoencoder)
相当于“调色滤镜与解码器”,用于修正色彩饱和度与灰度问题。
- 路径:
models/VAE
可通过 Settings → User interface → Quicksettings list 添加 sd_vae,以便在顶部栏快速切换。
提示:Docker 版部署路径通常位于
data目录下,如stable-diffusion-webui-docker/data/StableDiffusion,需据实调整。
原生进阶功能
在引入插件前,WebUI 自带的两项功能足以应对基础测试需求。
Prompt Matrix
通过 | 分隔条件,一次性生成多组对比图,适合快速测试风格或参数变量。
- 语法:
key1|key2|key3 - 效果:WebUI 会生成所有可能的组合。
- 例如
a robot in [cyberpunk|steampunk] style会分别生成赛博朋克和蒸汽朋克风格的机器人。 - 高级用法:
@(moba|rpg|rts) character会生成 MOBA、RPG、RTS 三种游戏角色的图。
- 例如
上方视频的调教词为 A mecha robot in World War II in realistic style|Shoot with another mecha robot|Bombed by planes|Missile drop|broken|Repaired|cinematic lighting。| 符号后的场景条件将进行排列组合,视频样例有 6 个场景条件生成 64 张图。
另外,我们可以指定场景条件位置,比如 @(moba|rpg|rts) character (2d|3d) model 表示 (moba|rpg|rts 三选一) character (2d|3d 二选一) model,也就是会生成 3*2 张图片。开头的 @ 是触发指定场景条件位置的符号,不能省略。
Textual Inversion
Textual Inversion(文本倒置/嵌入)是一种轻量级的模型微调方式。
- 原理:不需要重新训练整个大模型,而是“教会”模型一个新的单词(Token),这个单词代表特定的风格、人物或概念。
- 优势:文件极小(通常几 KB 到几百 KB),可以叠加使用。
- 场景:
- 风格复刻:比如
style-midjourney,可以让 SD 1.5 模仿 MJ 的画风。 - 人物固定:训练一个
my-cat的 Embedding,每次输入my-cat就能画出你家猫。 - 负面嵌入(Negative Embeddings):这是最常用的用法。比如
EasyNegative、bad-hands-5,把它们放入负面提示词,可以大幅减少崩坏概率。
- 风格复刻:比如
必备插件体系
插件生态拓展了 Stable Diffusion 的能力边界,覆盖控图、动画、换脸、高清修复及效率工具等维度。
安装路径:Extensions → Install from URL → 输入 Git 地址 → Install → Apply and restart UI。
1. ControlNet:精准控图
ControlNet 彻底改变了 AI 绘画的随机性,实现可控生成。
- OpenPose:锁定肢体动作与手势。
- Canny / Lineart:提取线稿边缘进行重绘上色。
- Depth:还原空间深度结构。
- Tile / Blur:增强细节与高清修复。
高清修复建议勾选
Pixel Perfect,配合稳定采样器(如DPM++ 3M SDE Karras),步数设为 40 – 60。
模型下载:HuggingFace(.pth 文件),存入 models/ControlNet。
2. 视频与动画
- AnimateDiff:生成流畅动画的首选方案,支持 GIF/MP4 输出。显存建议 8 GB 起。
- Deforum:专注视觉实验,通过数学公式控制运镜与画面形变,适合抽象艺术或音乐可视化。
- SadTalker:合成人像说话视频,口型与头部动作自动匹配音频。
3. InstantID:单图换脸
InstantID 基于 SDXL,无需训练即可实现高保真面部特征迁移。相比需大量样本训练的 EasyPhoto,它即插即用,但对显存要求较高(建议 12 GB+)。
4. 高清与后期
- Tiled Diffusion:通过分块绘制突破显存瓶颈,生成超高分辨率图像。
- Rembg:集成于 Extras 标签页,提供一键智能去背(推荐
isnet-general-use模型)。
5. 效率工具
- img-prompt:结构化提示词管理工具,支持中英文模板拆解与复用,尤其适应动画生成的高复杂度 Prompt 需求。
- Civitai Helper:自动匹配本地模型封面与信息。
- Prompt-all-in-one:集成翻译、历史记录与收藏功能。
- Lobe Theme:现代化 UI 主题,提升交互体验。
结语
掌握模型差异、善用 LoRA 补强风格、利用 ControlNet 约束构图,Stable Diffusion 便不仅是抽卡工具,而是可设计、可复现的创作系统。
不必盲目追逐新模型,选定一套顺手工具,沉淀专属的模型库、参数模板与 Prompt 资产,才是进阶关键。