第五节.Stable Diffusion大模型

优质文章学习记录

07 Apr 2026 — 8 min read

🍉大模型（Stable Diffusion 模型）

大模型，也叫 Stable Diffusion 模型，是 Stable Diffusion 绘图的核心基础，所有生成效果都依赖它。

常见版本

大模型已迭代出多个版本，常见的有：

Stable Diffusion 1.4（SD1.4）
Stable Diffusion 1.5（SD1.5）
Stable Diffusion 2.0（SD2.0）
Stable Diffusion 2.1（SD2.1）
Stable Diffusion XL（SDXL）
Playground、Stable Cascade 等

对初学者来说，重点记住两个主流版本：

SD1.5：最经典、生态最成熟，适合大多数场景
SDXL：新一代大模型，画质更高、细节更强

其他版本可以后续慢慢了解。

重要注意事项

SD1.5 和 SDXL 不通用：

SD1.5 必须搭配 SD1.5 专用 的 ControlNet 等模型
SDXL 必须搭配 SDXL 专用 的 ControlNet 等模型用错版本会直接报错，后面会结合案例详细说明。

🍉为什么要切换不同的大模型？

要理解为什么要切换大模型，核心是搞清楚 SD1.5 和 SDXL 这两代主力模型的区别：

1. 理论层面：SDXL 更 “强”

SDXL（新版本）：训练用的是 1024×1024 分辨率图像
- 理论上出图效果更好
- 能理解更多词汇
- 画面更精致、细节更丰富
SD1.5（老版本）：训练用的是 512×512 分辨率图像
- 基础能力不如 SDXL

2. 现实层面：SD1.5 更 “好用”

SD1.5
- 发布早，生态极其成熟
- 有海量微调模型、LoRA、ControlNet 等配套资源
- 出图效果已经很好，商用场景大多够用
- 对显卡要求低，生成速度快
SDXL
- 发布晚，生态还在追赶
- 模型体积大，对显卡要求高
- 微调难度大，间接拖慢生态发展
- 出图速度比 SD1.5 慢好几倍
- 这些限制导致普及速度较慢

简单总结：

追求画质、细节、表现力 → 优先用 SDXL
追求速度、兼容性、生态资源 → 优先用 SD1.5

2026.1现状：SDXL 生态变好，但 SD1.5 仍主流

到 2026 年 1 月，SDXL 的生态已经比刚发布时完善很多，但 SD1.5 依然是很多人的首选。这一点很重要，因为后面用别人的 ComfyUI 工作流时，必须先看作者用的是哪个版本的大模型，再做对应调整，否则容易报错。

加速模型：LCM / Turbo / Lightning

除了官方版本，你还会遇到带 LCM、Turbo、Lightning 等后缀的模型，它们都属于加速模型。

背景：SDXL 对电脑性能要求高，生成速度慢，所以官方和第三方都在做加速方案。
代价：加速通常会牺牲一点画质（优秀的加速模型，画质损失很小）。
用途：适合需要快速出图、预览效果的场景。

刚才花了一点时间，了解两大版本的差别，那么为什么每个版本下，会有那么多的第三方模型呢？

主要是为了增强某些方面的特殊优化。

优化之后，有些模型会更适合画写实类的画面，有些是二次元，还有一些模型会很适合画幻想元素等等。这个就好比，第三节提到的“雕刻师”都是转职过的，技能上会有所偏向，平时大家使用的，也大多是这些微调的大模型，效果会更好。

🍉模型下载网站：

LibLib（哩布哩布）

LibLib 是国内的大模型分享平台，无需科学上网即可访问。

经过一年多发展，已沉淀大量优质模型，包含不少原创作者的作品；
同时也搬运了许多国外优秀模型，下载方便；
虽有部分模型不开放下载，但绝大多数可免费获取。

官方地址：https://www.liblib.art/

Civitai（C 站）

Civitai 是业内老牌的模型网站，也被称作 C 站。

特点：模型全、更新快，配有缩略图，方便筛选；
限制：需要科学上网 (魔法)才能访问；
官方地址：https://civitai.com/

Hugging Face（抱脸）

Hugging Face 也被称作 “抱脸”，是一个可以下载插件、模型和代码的平台。

特点：更偏向开发者，而非设计师，查找资源的操作门槛相对较高；
访问限制：早期无需科学上网，现在需要科学上网才能正常访问；
官方地址：https://huggingface.co/

🍉模型推荐

面对众多模型，如何挑选效果好的？

其实没有绝对标准，核心是按任务和目标选择：

做漫画 → 选二次元风格大模型
做摄影 → 选写实类大模型

这也是 AI 绘画需要大容量硬盘的原因 —— 很多人会下载几十 G 甚至上百 G 的模型，来覆盖不同场景。

当然，也有一些公认优秀的模型，下面做简单推荐，大家可以先下载，后续使用时就不用临时等待下载了。

这里我将一些常用的模型存到了网盘里，大家可以去一键下载。
链接: https://pan.baidu.com/s/1zUVEfCKQmvYUx7JAN_1rvw 提取码: g2wp

SD1.5

写实类模型推荐

majicMIX realistic（麦橘写实）

这是一款非常优秀的真人写实模型，深受摄影师群体喜爱；
生成美女等写实人像效果稳定、靠谱；
下载地址：majicMIX realistic 麦橘写实

ChilloutMix

一款老牌写实真人模型，在早期非常流行；
虽然现在看技术上稍显落后，但日常使用依然可行；
下载地址：ChilloutMix

Realistic Vision

一款通用型写实大模型，适用场景广、通用性强；
缺点：生成亚洲面孔时，效果不如 majicMIX realistic、ChilloutMix 出色；
优点：在其他写实场景（如风景、静物、欧美人像等）中表现实用；
下载地址：Realistic Vision V6.0

2.5D 模型

ReVAnimated

实用性非常高，已默认打包在提供的 ComfyUI 中；
若不慎删除，可在相关网站或网盘中重新下载；
下载地址：ReVAnimated

动漫模型

Counterfeit-V2.5

经典动漫风格大模型，适合二次元插画、角色生成；
下载地址：Counterfeit-V2.5

SDXL 写实类模型推荐

XXMix_9realisticSDXL

专门针对 SDXL 版本 的写实模型；
解决了默认 SDXL 模型生成亚洲面孔效果不佳的问题，适合生成亚洲人像；
下载地址：XXMix_9realisticSDXL

realisticStockPhoto_v20

一款通用性很强的 SDXL 写实类模型；
下载地址：realisticStockPhoto_v20

其他模型

Juggernaut XL

一款通用性较强的模型，在数字艺术类作品的生成上表现出色；
下载地址：Juggernaut XL

🍉模型下载后，如何安装？

在 ComfyUI 中，大模型无需安装，只需放到指定文件夹即可。

下载的 Stable Diffusion 大模型，放在 models 下的 checkpoints 文件夹中；
可以在 checkpoints 里建二级文件夹分类存放，也可以直接放进去，ComfyUI 都能识别。

下一节，我们就基于一个实际案例，来讲解如何通过大模型来生成一张不错的图片，大家不见不散。

Meta-Llama-3-8B-Instruct性能对比：不同量化方式

Meta-Llama-3-8B-Instruct性能对比：不同量化方式 1. 引言随着大语言模型在消费级硬件上的部署需求日益增长，如何在保持推理质量的同时降低显存占用和提升推理速度，成为工程落地的关键挑战。Meta-Llama-3-8B-Instruct 作为 Llama 3 系列中兼顾性能与效率的中等规模模型，凭借其 80 亿参数、支持 8k 上下文以及出色的指令遵循能力，成为单卡部署的理想选择之一。然而，原始 FP16 模型约需 16 GB 显存，仍超出多数消费级 GPU 的承载能力。因此，量化技术成为释放其潜力的核心手段。本文将系统性地对比 GPTQ-INT4、AWQ、GGUF（Q4_K_M）等多种主流量化方案在 vLLM 与 llama.cpp 等推理框架下的表现，涵盖显存占用、推理速度、输出质量三大维度，并结合 Open WebUI

React Native智能家居摄像头模块深度解析：直播、回放与告警的技术实现

在智能家居应用开发中，摄像头模块往往是功能最复杂、技术挑战最大的部分之一。本文将通过深入分析三个核心文件：CameraHome.js（实时直播）、CameraRecordNew.js（录像回放）和EventAlarmPageNew.js（事件告警），揭示一个成熟智能家居摄像头模块的技术架构与实现细节。一、CameraHome.js - 摄像头直播控制中心 1. 主要功能全景 CameraHome.js作为摄像头的主控制界面，实现了全方位的设备管理功能： * 实时视频流处理：支持高清/标清双流切换、播放控制（播放/暂停/停止） * 高级云台控制：8方向转动、边界智能检测、6个预设视角管理 * 音视频交互：双向语音通话、麦克风与扬声器控制 * 智能场景模式：夜视模式、隐私模式、遮蔽模式一键切换 * 多存储状态监控：实时显示SD卡、云存储、NAS的使用状态 * 告警即时预览：今日告警数量统计、最新告警事件展示 2.

GLM-4-9B-Chat-1M环境部署：Transformers/vLLM/llama.cpp三推理框架对比选型

GLM-4-9B-Chat-1M环境部署：Transformers/vLLM/llama.cpp三推理框架对比选型想象一下，你手头有一份300页的PDF合同，或者一整年的公司财报，你想让AI帮你快速总结要点、提取关键信息，甚至回答基于这份长文档的复杂问题。过去，这几乎不可能——模型要么读不完，要么读完就“失忆”，要么需要昂贵的多卡集群。现在，情况变了。智谱AI开源的GLM-4-9B-Chat-1M模型，直接把上下文长度拉到了惊人的100万token，相当于一次性能读完200万汉字。更关键的是，它只需要一张24GB显存的消费级显卡（比如RTX 3090/4090）就能跑起来。模型有了，怎么把它用起来？这就是我们今天要解决的问题。市面上主流的推理框架有好几个：Transformers、vLLM、llama.cpp，它们各有各的脾气和特长。选错了，你可能面对的是缓慢的推理速度、爆满的显存，或者复杂的部署流程。这篇文章，我就带你亲手部署GLM-4-9B-Chat-1M，并横向对比这三个框架。我会告诉你，在什么硬件条件下，为了什么目的，应该选哪一个。目标很简单：让你用最少的折腾，

信号处理仿真：图像信号处理_（10）.图像信号处理的硬件实现

图像信号处理的硬件实现在图像信号处理领域，硬件实现是将图像处理算法转换为物理设备的关键步骤。硬件实现可以显著提高处理速度和效率，特别是在实时处理和大规模数据处理中。本节将详细探讨图像信号处理的硬件实现原理和技术，包括常见的硬件平台、设计流程、性能优化方法等。常见的硬件平台 1. FPGA（Field-Programmable Gate Array） FPGA 是一种可编程逻辑器件，可以在用户定义的硬件设计中实现复杂的数字逻辑功能。FPGA 的主要优点是并行处理能力和低延迟，适用于实时图像处理任务。原理 FPGA 通过硬件描述语言（如 VHDL 或 Verilog）设计逻辑功能。用户可以在 FPGA 上实现自定义的数字信号处理算法，这些算法可以直接映射到硬件资源，从而实现高效的并行处理。设计流程 1. 需求分析：确定图像处理任务的具体需求，包括输入输出格式、处理速度、资源限制等。 2. 算法设计：选择合适的图像处理算法，并进行数学建模。 3. 硬件描述：使用 VHDL 或