本地运行最近很火爆的Z-Image-Turbo大模型

  • 2025-12-15
  • 人工智能
  • ai z image 模型训练 深度学习
  • --

AI 摘要

这篇文章介绍了如何使用Z-Image-Turbo模型进行本地图像生成。作者详细记录了下载模型、编译工具和运行流程的过程,并通过几个示例测试了中文理解能力、材质与光影效果等特性。

火爆的Z-Image-Turbo模型

最近几个月,通义实验室开源的Z-Image-Turbo模型 在中文社区引起了不少关注。它宣称“8 步出图”、“中文理解强”、“低显存友好”、“逼真画质”,看得我不禁想要尝试一下。

Z-Image-Turbo 的来历还是很有渊源的,他跟 Qwen-Image 都是阿里通义体系的产品,由不同团队开发。Z-Image 是通义实验室“造相”项目于 2025 年 11 月底推出的 6B 高效基础模型,主打轻量、快速与低资源部署。

Z-Image-Turbo 并非 Qwen-Image 的简化版,而是 Z-Image 家族中首个发布的蒸馏加速版本,仅需 8 步推理即可在消费级设备(包括 MacBook M 系列)上生成高质量图像,因其中文理解优秀、开源免费、支持 GGUF 量化等特性,迅速成为普通用户本地 AI 生图的热门选择。

下面我记录一下本地使用z-image-turbo模型的过程,包括下载模型、编译工具、跑几组测试。这不是性能评测,也不是产品对比,而是一次可复现的个人实验——如果你也有一台 M 系列 Mac,或许能从中获得一些参考。

下载模型

官方模型是发布在HuggingFace和魔搭社区的,但是这次我们要用ComfyUI运行,所以直接下载ComfyUI打包好的3个文件即可:

同时我也下载了一个GGUF量化版本 ,因为在Macbook上使用量化版本可以大大提升效率。

我选择的是jayn7/Z-Image-Turbo-GGUF, 下载了Q3_K_S版本,最轻量,但效果不会差太多。

GGUF 是 Turbo 模型的量化格式转换版,非重训练,仅压缩权重以适配 CPU/Metal 推理。

同时在 ComfyUI 中运行还需要下载文本编码器和 VAE:

qwen_3_4b.safetensors

ae.safetensors

文件下载好后,将所有文件放入到模型文件夹中,目录如下:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_turbo_bf16.safetensors
│   ├── 📂 vae/
│   │      └── ae.safetensors
│   └── 📂 unet/   
│          └── z_image_turbo-Q3_K_S.gguf

如果你没有安装ComfyUI,需要先安装ComfyUI,具体安装过程可以参考我的另一篇文章《我折腾ComfyUI的全过程》

工作流程

ComfyUI 已经提供了 z-image-turbo 的流程模板,直接从模板管理中选择即可:

流程图如下:

关键参数说明(无需手动调整,工作流已预设)

Steps(步数): 9   
CFG: 1.0(Turbo 模型对 CFG 不敏感) 
Sampler: euler 或 res\_multistep
Scheduler: sgm\_uniform 或 simple
分辨率: 建议 512×512、768×768、1024×1024
    

GGUF版工作流程

在使用GGUF模型前,需要安装ComfyUI-GGUF插件。

然后将流程中的UNet加载器CLIP加载器 换成GGUF版本的加载器,改完后流程如下:

做个简单的评测

先说一下我的电脑配置:

-   MacBook Pro (2023)
-   芯片:Apple M3
-   内存:18GB 统一内存
-   系统:macOS Sonoma 15.7

为避免主观偏好,我让 AI 设计了几个覆盖不同场景的中文提示词,简单测试一下中文理解能力、材质和光影物理效果、中英文混排能力、设计能力、运行速度等。

所有测试均使用512×512 分辨率、固定seed,并记录生成时间与观察现象。

实际测试

以下为部分生成结果的客观描述(未修图、未筛选,展示典型输出):

🌟 1. 【中文文化语境——验证“中文理解”,提示词:

冬至夜,一位穿靛蓝棉麻汉服的少女坐在江南老宅窗边,手捧一碗热气腾腾的汤圆,窗外细雨朦胧,屋内暖黄灯笼微光映照她温柔侧脸,青瓷碗沿有水汽凝结,背景可见雕花木窗与腊梅枝影。

✏️点评:

  • 能正确还原“汉服形制”“汤圆”“冬至氛围”;
  • 光影符合“室内暖光 + 室外冷雨”对比;
  • 文化元素(中式场景等)正确;

🌟 2. 【照片级真实感】—— 挑战材质与光影物理。提示词:

超写实摄影风格,一只湿漉漉的金毛犬刚从湖中上岸,站在晨光下的鹅卵石滩上甩水,水珠飞溅在空气中形成动态轨迹,毛发根根分明且半透明反光,背景虚化的芦苇丛泛着金色柔光。

✏️点评:

  • 水珠、湿毛、石头纹理的细节层次清晰;
  • 真实感、动态感十足;
  • 光影真实合理;

🌟 3. 【中英混合排版】—— 测试双语文本渲染能力(Z-Image 强项),提示词:

极简咖啡店新品海报,浅咖啡色渐变背景中央有一杯焦糖玛奇朵,杯身标签清晰印有中英双语文案:“灵感由 Z-Image 生成|Powered by AI”,中文使用现代黑体,英文为无衬线字体,字号协调,排版居中,文字边缘锐利无模糊,整体风格干净、专业、有设计感。

✏️点评:

  • 中文字体完整、笔画清晰;
  • 英文“Powered by AI”无拼写错误;
  • 产品展示正确合理,整体设计感尚可;

🌟 4. 【8步极速 vs 细节保留】—— 验证少步数下的构图稳定性,提示词:

赛博朋克街景,霓虹招牌林立,一位穿透明雨衣的少女站在积水街道中央,倒影清晰反射出“未来科技”全息广告,雨滴在水面激起涟漪,远处悬浮车流划出光轨。

✏️点评:

  • 复杂场景下结构基本保持正确,没有崩坏;
  • 倒影、光轨、雨滴等动态元素合理;
  • 8 步推理没有导致画面“平滑过头”失去锐度;

整体测试下来,Z-Image-Turbo 模型在中文语义理解、图像真实感与本地部署友好性方面表现突出。画质细节等也接近摄影级水准;

基于我的电脑配置,目前运行原版z-image-turbo还是有点慢的,512*512分辨率下大概需要160~200秒。而GGUF版本模型在相同分辨率下,可以控制在100秒左右。这个速度应该还可以优化,带我后续研究研究。

总结

经过几天测试,我认为Z-Image-Turbo的定位非常清晰,可能适合的用户/场景:

  • 希望完全离线生成图像(保护隐私、无网络依赖)
  • 需要快速视觉草稿(用于头脑风暴、故事板、UI 构思)
  • 制作非商业用途配图(博客、课件、社群分享)
  • 普通电脑想尝试运行AI图像大模型的玩家。

这次实验让我意识到:AI 生图的门槛,正在被真正降低。

现在只需一台普通的电脑,就能在本地完成从输入文字到输出图像的全过程。虽然画质不及商用模型,但在速度、隐私和可用性之间,它找到了一个务实的平衡点。

而更重要的是:它让我重新思考——AI 创作的未来,或许不仅在云端,也在每个人的笔记本里。

Maple
Maple
© 2025 by Maplezz 本文基于 CC BY-NC-SA 4.0 许可 CC 协议 必须注明创作者 仅允许将作品用于非商业用途 改编作品必须遵循相同条款进行共享 最后更新:2025/12/15