1. 从 V1 到 V2.1:一场'心脏'与'食粮'的全面升级
如果你刚开始接触 Stable Diffusion,可能会被网上各种'SD 1.5 yyds'、'SD 2.1 更真实'的说法搞晕。别急,这就像手机系统从 iOS 14 升级到 iOS 16,核心功能没变,但内核、体验和能做的事儿都大不一样了。咱们就从最核心的两个部分——理解文字的'大脑'(文本编码器)和学习的'教材'(训练数据集)——来看看它们是怎么进化的。
1.1 文本编码器:从 CLIP 到 OpenCLIP,理解力翻倍了
在 Stable Diffusion 里,你输入的文字提示词(Prompt)并不是直接被模型理解的。它需要一个'翻译官',先把你的话转换成模型能懂的数学向量。这个'翻译官'就是文本编码器。
SD V1 系列(1.1, 1.2, 1.3, 1.4, 1.5) 用的都是 CLIP ViT-L/14。你可以把它想象成一个受过良好教育、但知识面相对传统的翻译。它基于 OpenAI 收集的大量图文对训练,理解能力很强,参数大约是 1.23 亿。我刚开始玩 SD 1.5 的时候,用它生成'一个穿着太空服的猫',效果就相当不错,能准确抓住'太空服'和'猫'这两个核心概念。
但到了 SD V2 系列(2.0, 2.1),官方直接换了个'翻译官',改用 OpenCLIP。这个变化可太大了。OpenCLIP 是在一个更庞大、更多样化的开源数据集 LAION-5B 上训练的,它的参数量飙升到了约 3.54 亿,几乎是 CLIP 的三倍。这意味着什么?意味着它的'词汇量'和'理解深度'都上了一个台阶。
实测下来的感受是,OpenCLIP 对复杂、抽象或者偏艺术描述的词句理解得更细腻。比如,在 SD 1.5 里,你输入'一幅具有梵高《星月夜》笔触的现代城市夜景',它可能更侧重于'城市'和'夜景',笔触风格要靠点运气。但在 SD 2.1 里,OpenCLIP 能更好地捕捉'梵高笔触'这种风格化指令,生成的图像在纹理和色彩动感上明显更贴近要求。不过,这也带来一个'副作用':因为理解得更'较真',有时候你需要调整你的提示词语法,写得更加严谨,避免歧义,否则模型可能会忽略掉一些修饰性的细节。
1.2 分辨率与架构:从 512 到 768 的跨越
除了'大脑'升级,V2 系列在基础架构上也做了调整。V1 时代默认的基础分辨率是 512x512,而 V2 提升到了 768x768。这不仅仅是数字的变化,它意味着模型在训练时看到的图像细节更多,生成的画面在人物五官、物体边缘的处理上会更自然,减少了早期版本常见的模糊感。
当然,更高的分辨率也带来了显存占用和推理时间的增加。在实际使用中,如果你追求极致的提示词控制力和风格还原度,V2 是更好的选择;如果你更看重社区生态的丰富性(毕竟 V1.5 的 LoRA 和插件多如牛毛),V1.5 依然是稳妥的基石。

