AI 摘要
Z-Image基础版终于上线,它是通义Z-Image(造相)体系里的未蒸馏基础模型,旨在为深度创作、扩展和更多自定义玩法提供底座。与Turbo版相比,基础版生成的图片多样性更强,但生图速度慢。
今年一开年,通义Tongyi-MAI官方就给我们送上了一份大礼。期盼已久的Z-Image基础版终于发布了,并在 Hugging Face 上迅速成为热榜榜首,首日下载量超 50 万。
什么是Z-Image
Z-Image 是通义Z-Image(造相) 体系里的未蒸馏基础模型(Full-Capacity),保留完整训练信号,支持更高的多样性和精细表达。
去年的Z-Image-Turbo一经发布就爆火,6B 参数、8 步推理、照片级真实感、支持中英双语文本渲染,轻松适配16G 显存的消费级设备。种种优点让 Turbo 成为很多创作者的默认选择。
如果说Turbo版是面向应用的“利剑”,那么基础版Z-Image则是面向未来的“引擎”。与 Turbo 版不同,它旨在为深度创作、扩展和更多自定义玩法提供底座。
与Turbo版对比
废话不多说,先看一下我本地实测的对比效果:
➡️ z-image-turbo:
➡️ z-image:
怎么样,你的第一感觉是什么?
很明显,Turbo版每次生成的3张图大致一样,而基础班每次生成的3张图会有较大的变化。也就是说基础版在多样性方面有很明显的优势。
而我在使用中的第一感觉是基础版生图速度慢。生图速度与Turbo版几乎相差3-4倍。 以512x512大小的图片为例,在我的电脑上,Turbo版需要60秒,基础班则需要300秒。
而且图片质量方面,我主观感受,Turbo版略胜基础版一些。基础版有时出的图会比较假,有塑料感。
其实不用奇怪,因为Z-Image不同版本的作用是不同的。
Z-Image基础版是未蒸馏的基础模型, 核心在于 “它是一个高质量、未压缩、可扩展的底座”。更适用于模型训练、定制化开发、科研探索、长流程制作,运行需要更多推理步数和资源调优。
而 Turbo版 是一个经过蒸馏优化(distilled)的轻量级高效版本 ,它在设计时就把生成速度和大部分视觉质量放在第一位,并且默认使用 8 步推理,这让它在许多日常提示词下输出的图像看起来既快又好。
下面是官方给出的对比说明:
Z-Image家族
通过这张图可以清晰的看到Z-Image家族图谱的关系。简单总结一下他们之间关系和特点:
👉Z-Image-Omni-Base:预训练基座,提供通用视觉理解能力。
👉Z-Image:基础未蒸馏模型,具备最高潜力与可扩展性,用于训练、微调和衍生。
👉Z-Image-Turbo:蒸馏优化模型,面向快速生成和高效推理。
👉Z-Image-Edit:针对图像编辑任务优化的专用模型。
Z-Image 的核心特点
💡未经提炼的基础模型: 作为一种未经提炼的基础模型,Z-Image 保留了完整的训练信号。它支持完全无分类器引导 (CFG),为复杂的快速工程和专业工作流程提供所需的精度。
💡美学多样性: Z-Image 能够驾驭广泛的视觉语言——从超写实摄影和电影级数字艺术到精细的动画和风格化插画。它是需要丰富、多维表达的场景的理想引擎。
💡增强的输出多样性: Z-Image 专为探索而生,可在不同的种子上提供更高的构图、面部特征和光照变化,确保多人场景保持独特性和动态性。
💡专为开发而生: 是社区的理想起点。其未经提炼的特性使其成为 LoRa 训练、结构化条件反射(ControlNet)和语义条件反射的良好基础。
💡强大的负面控制: 对负面提示做出高度保真响应,使用户能够可靠地抑制瑕疵并调整构图。
Z-Image适合谁用
简单来说,Z-Image 适合追更多风格和可能性的创作者;想做模型微调、训练、二次开发的人;接受“慢一点但更可控”的用户。
如果你想一键秒图、对速度极度敏感。或者你的硬件资源非常有限。那么直接用Turbo就好了。
总 结
如果说 Z-Image-Turbo 让世界看到了他,那么 Z-Image 的高可塑性才是决定他能走多远的,真正的图像生成创作革命才刚刚开始。
刚刚发布几天,社区里已经有很多大神开始整活儿,做出了很多好玩的东西。下期我们一块看看围绕 Z-Image 社区都做出了哪些有意思的东西。