从一句话到一张图：看懂 Stable Diffusion 的“潜空间扩散”生成流程（配图详解）

文章配图

Stable Diffusion Pipeline

Source: Aayush's Blog, 'Stable Diffusion using Hugging Face – Putting everything together' (2022).Used with attribution.

当你输入一句 'A dog wearing a hat（戴帽子的狗）'，模型最后输出一张高清图片。中间到底发生了什么？
这张图展示的，其实就是 Stable Diffusion 这类潜空间扩散模型（Latent Diffusion Model）最核心的工作流：文本 → 语义向量 → 潜空间噪声 → 逐步去噪 → VAE 解码成图像。
本文将按图逐块拆解，并补充它背后的关键概念与工程细节，让你真正理解扩散模型是如何'画画'的。

1. 这张图在讲什么？

这张图描述了典型的 Stable Diffusion 文生图管线：

Prompt 文本 → CLIP 文本编码得到 text embeddings
从高斯噪声开始初始化潜变量 latents
U-Net 在 text embeddings 条件引导下做多步迭代去噪（由 scheduler 控制）
得到最终的 conditioned latents
VAE 解码成真实像素图输出（如 512×512）

2. 模块一：CLIP Model —— 文本如何变成'可计算的语义'

图左侧是 CLIP Model，主要过程包括：

Tokenizer（分词器）：把文字拆成 token
Token to Embedding：把 token 映射到向量空间
输出 Text Embeddings (1×77×768)

2.1 为什么是 77×768？

以 SD 1.x 为例：

最大 token 长度固定为 77（包含起止符号等）
每个 token 对应一个 768 维语义向量（CLIP Text Encoder 的 hidden size）

因此最终的文本表示是一个矩阵：

$\text{text\_embeddings} \in \mathbb{R}^{1 \times 77 \times 768}$

这个 embedding 就是后续 U-Net 去噪过程的'条件信号'，相当于让模型知道：它去噪的目标应该朝向'戴帽子的狗'。

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

图的右上角是 Gaussian Noise（高斯噪声）：

形状：

文章配图

Stable Diffusion Pipeline

Source: Aayush's Blog, 'Stable Diffusion using Hugging Face – Putting everything together' (2022).Used with attribution.

当你输入一句 'A dog wearing a hat（戴帽子的狗）'，模型最后输出一张高清图片。中间到底发生了什么？
这张图展示的，其实就是 Stable Diffusion 这类潜空间扩散模型（Latent Diffusion Model）最核心的工作流：文本 → 语义向量 → 潜空间噪声 → 逐步去噪 → VAE 解码成图像。
本文将按图逐块拆解，并补充它背后的关键概念与工程细节，让你真正理解扩散模型是如何'画画'的。

1. 这张图在讲什么？

这张图描述了典型的 Stable Diffusion 文生图管线：

Prompt 文本 → CLIP 文本编码得到 text embeddings
从高斯噪声开始初始化潜变量 latents
U-Net 在 text embeddings 条件引导下做多步迭代去噪（由 scheduler 控制）
得到最终的 conditioned latents
VAE 解码成真实像素图输出（如 512×512）

2. 模块一：CLIP Model —— 文本如何变成'可计算的语义'

图左侧是 CLIP Model，主要过程包括：

Tokenizer（分词器）：把文字拆成 token
Token to Embedding：把 token 映射到向量空间
输出 Text Embeddings (1×77×768)

2.1 为什么是 77×768？

以 SD 1.x 为例：

最大 token 长度固定为 77（包含起止符号等）
每个 token 对应一个 768 维语义向量（CLIP Text Encoder 的 hidden size）

因此最终的文本表示是一个矩阵：

$\text{text\_embeddings} \in \mathbb{R}^{1 \times 77 \times 768}$

这个 embedding 就是后续 U-Net 去噪过程的'条件信号'，相当于让模型知道：它去噪的目标应该朝向'戴帽子的狗'。

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

图的右上角是 Gaussian Noise（高斯噪声）：

形状：

从一句话到一张图：看懂 Stable Diffusion 的“潜空间扩散”生成流程（配图详解）

1. 这张图在讲什么？

2. 模块一：CLIP Model —— 文本如何变成'可计算的语义'

2.1 为什么是 77×768？

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

从一句话到一张图：看懂 Stable Diffusion 的“潜空间扩散”生成流程（配图详解）

1. 这张图在讲什么？

2. 模块一：CLIP Model —— 文本如何变成'可计算的语义'

2.1 为什么是 77×768？

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

更多推荐文章

相关免费在线工具

3.1 为什么不是直接在 512×512 像素上扩散？

3.2 这 4 个通道是什么？

4. 模块三：U-Net —— 扩散模型真正'画画'的地方

4.1 U-Net 为什么叫 U-Net？

4.2 文本是怎么'进'U-Net 的？

4.3 CFG：提示词引导

5. 模块四：Scheduler —— 控制'加噪/去噪'的时间策略

5.1 为什么图里写 'Repeat N times'？

6. 模块五：VAE —— 从潜空间回到像素世界

7. 串起来：Stable Diffusion 的整体流程（对应图）

8. 为什么这种结构强大？有三个关键优势

8.1 潜空间扩散：速度与质量的折中最佳解

8.2 CLIP 语义空间：文本可精细控制图像内容

8.3 Scheduler 可插拔：采样策略决定'生成气质'

9. 读图小结

更多推荐文章

相关免费在线工具

从一句话到一张图：看懂 Stable Diffusion 的“潜空间扩散”生成流程（配图详解）

1. 这张图在讲什么？

2. 模块一：CLIP Model —— 文本如何变成'可计算的语义'

2.1 为什么是 77×768？

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

从一句话到一张图：看懂 Stable Diffusion 的“潜空间扩散”生成流程（配图详解）

1. 这张图在讲什么？

2. 模块一：CLIP Model —— 文本如何变成'可计算的语义'

2.1 为什么是 77×768？

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1 为什么不是直接在 512×512 像素上扩散？

3.2 这 4 个通道是什么？

4. 模块三：U-Net —— 扩散模型真正'画画'的地方

4.1 U-Net 为什么叫 U-Net？

4.2 文本是怎么'进'U-Net 的？

4.3 CFG：提示词引导

5. 模块四：Scheduler —— 控制'加噪/去噪'的时间策略

5.1 为什么图里写 'Repeat N times'？

6. 模块五：VAE —— 从潜空间回到像素世界

7. 串起来：Stable Diffusion 的整体流程（对应图）

8. 为什么这种结构强大？有三个关键优势

8.1 潜空间扩散：速度与质量的折中最佳解

8.2 CLIP 语义空间：文本可精细控制图像内容

8.3 Scheduler 可插拔：采样策略决定'生成气质'

9. 读图小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具