最近这段时间,我的MacBook Pro的风扇几乎就没停过,更别说合上盖子了。因为我在本地部署了一套ComfyUI,然后我这个人吧——一旦沾上“折腾”两个字,就跟踩了油门一样停不下来。
因为最近各个平台总是给我推ComfyUI相关的文章。我就好奇去搜了一下:
ComfyUI是一个基于节点的开源图形化前端界面,专为Stable Diffusion提供更加灵活和直观的操作方式。
本来只是想在本地跑个 SDXL,看看我这电脑到底能不能带起来,结果没想到,这玩意儿越研究越有意思,就跟搭乐高似的,找模型、配节点,然后看着自己搭建的流程跑出一张图片,还是很有意思的。
一开始我还是担心我的电脑运行不起来,还特意问了ChatGPT,M系列芯片的MBP基本都能运行。 这我就放心了。

如何安装
ComfyUI本身是开源的,所以你可以直接去github上下载运行,也可以去官网下载桌面版。

下载完成后,双击安装

打开界面
当打开界面时,你可能是一脸懵逼的。不过没关系,直接点开左侧栏的“模板“”,然后就能看到很多官方做好的流程模板,选一个最简单的“图像生成”,这就是一个最基础的工作流了。

这张图里可以看到7个工作节点,下面我分别介绍一下他们是干什么用的:
- Load model(加载模型节点)
负责加载 Stable Diffusion 的核心模型,同时加载配套的CLIP(文本编码器)和VAE(图像解码器)。
模型是生成图像的 “基础引擎”,CLIP 负责把文字转成模型能理解的 “语义向量”,VAE 负责把模型生成的 “隐空间数据” 转成最终的可视化图像。
-
Prompt(提示词节点)分两个部分Positive Prompt(正向提示词):写你想要生成的内容。Negative Prompt(反向提示词):写你不想出现的内容。
-
Image size(图像尺寸节点)设置生成图像的宽度、高度,同时可以调整一次生成多少张图。
-
K 采样器(核心生成节点)这是 “图像生成的核心”,它会结合加载好的模型、编码后的提示词、设置的尺寸,通过 “采样算法” 一步步生成图像的 “隐空间数据”。其中参数:· 种子(Seed):控制生成结果的随机性;· 步数(Steps):采样步数越多,图像细节越丰富;· CFG(提示词相关性):数值越高,生成内容越贴合你的提示词;
-
VAE 解码节点把 K 采样器生成的 “隐空间数据(Latent)”,转换成我们能看到的像素图像(相当于 “翻译” 模型的中间结果)。
-
保存图像节点把最终生成的图像,保存到 ComfyUI 的output文件夹里(也可以右键手动保存)。
如何使用
现在我们需要一个真正能跑的模型,ComfyUI自带的模型管理器中很多免费模型,可以直接下载。

一开始我直接使用sd_xl_base_1.0模型,这是SDXL的基础模型,因为我不熟悉使用方法,第一版生成的图片几乎惨不忍睹。

其实这真不是模型的锅,如果配合好调参和提示词,还是能够生成非常棒的图片。但我还是去civitai上找了一些好看的模型,civitai真是一个很好的学习网站,小孩子不要上😏
我找了一个评分挺高挺适合做二次元的模型,虽然还没搞明白怎么用,反正先下载了再说。

再次请出ChatGPT,原来基础模型要放到ComfyUI/models/checkpoints下面。

这样就可以在ComfyUI的模型列表中看到了。

接下来就是把Checkpoint加载器中的模型换成新的模型就可以了。

然后再次有请ChatGPT帮我们生成一份适合SD风格的提示词:
正向提示词:
lazypos, 1girl, solo, angelic girl, shimmering wings,
long silver hair, purple eyes, glowing pupils, halo
fragments, ethereal jewelry, thin golden accessories,
soft blush, parted bangs, elegant expression, celestial
background, sparkles, floating feathers, upper body,
soft lighting, delicate hands
反向提示词:nsfw, deformed hands, extra fingers, warped face, low resolution, blurry, watermark, text

这次生成的果然有效果好多了,二次元风格风格,细节也很丰富。参数为宽768,高1024,步数30,cfg:4,采样器euler,调度器simple,生成一张图大概用时110秒。 比起付费的生图平台要慢很多,但也不是不能接受,毕竟使用自己的笔记本跑的,免费不限量,还想要什么自行车?
使用LoRA
LoRA 可以理解为给 AI 模型 “打补丁” 的小模型。
它的核心是让大模型快速学会特定风格/元素:比如你想让 AI 生成 “某卡通角色”“某画师的画风”“特定物品的质感”,不用重新训练整个大模型,只需要用少量数据训练一个 LoRA 小文件(通常几十 MB),加载后就能让原模型 “解锁新技能”。
我找了一个PVC风格的模型,我想用它做出盲盒手办的感觉,于是在模型后面增加了一个LoRA模型,这个LoRA模型是盲盒风格,这样做出来就有盲盒手办的感觉了。

加载LoRA节点:
模型强度:控制 LoRA 对 “图像生成” 的影响程度(数值越高,盲盒风格越明显,1.0 是满强度);
CLIP 强度:控制 LoRA 对 “文本理解” 的影响程度(和模型强度配合,让提示词和 LoRA 风格更匹配);
再再次有请ChatGPT帮我们生成提示词:
正向提示词:(masterpiece),(best quality),(ultra-detailed),
(full body:1.2),1girl,chibi,cute,fashion vinyl doll,
sneaker-focus pose, oversized hoodie, street fashion
palette, resin boots highlight, soft vinyl skin,
spotlight from above, minimal display cube, reflective
floor, sculpted hair, toy commercial photography style,
clean background
反向提示词:
extra fingers,Extra toes, distorted face, text artifacts,
nsfw

看上去不错,栩栩如生的可爱手办,不管是材质质感还是细节纹理都非常的棒,完全不输付费生图大模型。
总 结
这次折腾的过程其实并不算顺利。找模型、节点参数不兼容、采样器缺失,各种学习新知识,我可能真的挺能忍。
不过折腾到后面,系统逐渐稳定,我也逐渐找到属于自己的那套 SDXL 工作流。速度不算快,但能跑,图的质量也能控制得不错。工作流搭起来之后,画出来的几张图终于有点连续性,有点氛围,这也算折腾成功了吧。挺有意思的,动手能力的同学可以搞起了。