上手 Stable Diffusion：提示词、模型与调参经验 | 极客日志

PythonAI

上手 Stable Diffusion：提示词、模型与调参经验

从零上手 Stable Diffusion 的实用指南。解释扩散模型三步原理和潜空间、UNet、CLIP 组件，提供完整 Python 代码示例。分享显存优化三招：半精度、TensorRT 加速、Colab 白嫖。详述提示词顺序、负面词模板与权重技巧。介绍 ControlNet 控制姿势、LoRA 切换风格等插件。解决人脸扭曲、画面模糊、中文乱码等常见问题，并给出批量跑图脚本。强调多试多调，把脑内画面变成高清图。

云间运维发布于 2026/6/110 浏览

上手 Stable Diffusion：提示词、模型与调参经验

最近被一位文科生朋友刺激了——他笔记本上装 Stable Diffusion，半小时就生成了4K猫娘，效果吊打我折腾了三天的图。我问他的秘诀，就五个词：可爱，喵喵，赛博，霓虹，8K。这让我意识到，用 Stable Diffusion 这玩意儿，方向比努力重要得多。下面是我断断续续摸索出来的经验，从原理到实战，分享出来让新手少走些弯路。

原理其实很简单：扩散模型三步法

别看论文里'潜空间扩散模型'这些词挺唬人，逻辑就三步：

你输入文字描述。
模型从随机噪声开始，一步一步去噪，让噪声越来越像你描述的画面。
最后放大成高清图。

就像小时候玩的'猜画小歌'，只不过它背后有个几十亿图片的数据库，速度快到你没法比。官方说法叫 Latent Diffusion Model，核心思路是在一个压缩过的特征空间（潜空间）里进行去噪，再放大还原，这样既省显存又不牺牲画质。

从马赛克到猫娘：去噪流水线

可以用一张动图理解：64×64 的马赛克 → 128×128 → 512×512 → 眨眼猫娘。这背后是三个组件接力：

CLIP（语言理解模型）：把你的提示词转换成一个77维的向量，相当于告诉模型'我要什么'。
UNet（去噪网络）：根据 CLIP 的指导，在潜空间里反复预测并去除噪声，每一步都让图像更清晰一点。
VAE（变分自编码器）：把去噪后的小尺寸潜空间表示解码放大成高清图片，顺便做锐化、调色。

用代码跑起来很简单，我用的是 Hugging Face 的 diffusers 库：

# stable_diffusion_pipeline.py
import torch
from diffusers import StableDiffusionPipeline

# 1. 加载模型，本地路径或 HuggingFace ID 都行
pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16,  # 半精度，省显存
    safety_checker=None,  # 别拦我，我要猫娘
    requires_safety_checker=False
).to("cuda")

# 2. prompt 越具体，AI 越不摆烂
prompt = "cyberpunk catgirl, neon city background, leather jacket, glowing eyes, masterpiece, 8k"

# 3. 负面 prompt 直接告诉它「别整活」
negative_prompt = "lowres, bad anatomy, extra fingers, jpeg artifacts"

# 4. 生成！batch_size 别作死，8G 显存就 1 张
with torch.no_grad():
    image = pipe(
        prompt,
        negative_prompt=negative_prompt,
        num_inference_steps=25,  # 步数少→快但糊；多→慢但细
        guidance_scale=7.5,  # 值越大越听你的话，太高又死板
        generator=torch.Generator().manual_seed()  
    ).images[]
    image.save()

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

# unet_idea.py（伪代码，帮你理解）
def unet_step(noisy_latent, prompt_emb, t):
    # 预测噪声
    noise_pred = unet(noisy_latent, t, encoder_hidden_states=prompt_emb)
    # 去噪
    less_noisy = scheduler.step(noise_pred, t, noisy_latent).prev_sample
    return less_noisy

pip install nvidia-pyindex
pip install nvidia-tensorrt
python convert_stable_diffusion_to_tensorrt.py --model runwayml/stable-diffusion-v1-5

# colab_stable_diffusion.ipynb
!pip install diffusers transformers accelerate
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16
).to("cuda")

prompt = "your_prompt_here"
image = pipe(prompt, num_inference_steps=20).images[0]
image.save("/content/sample.png")

正面： masterpiece, best quality, 1girl, long silver hair, detailed eyes, cyberpunk city, leather jacket, neon lights, depth of field, sharp focus, 8k
负面： lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

需求	插件	概览
姿势控制	ControlNet	上传骨架图，猫娘姿势随你摆
画风切换	LoRA	下载 10-200MB 的小模型，即刻切换吉卜力、像素风
私人定制	Textual Inversion	给模型看 3-5 张自家猫的照片，以后就能生成'我家猫娘'

# 1. 克隆插件
git clone https://github.com/Mikubill/sd-webui-controlnet.git extensions/sd-webui-controlnet
# 2. 下载 OpenPose 骨架模型
wget https://huggingface.co/lllyasviel/ControlNet-v1-1/resolve/main/control_v11p_sd15_openpose.pth -O models/ControlNet/control_v11p_sd15_openpose.pth

# batch_grid.py
from diffusers import StableDiffusionPipeline
import itertools, os

pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16
).to("cuda")

prompt = "1girl, cyberpunk, detailed eyes"
seeds = [42, 123, 666]
cfgs = [7, 9]
samplers = ["DPM++ 2M Karras", "DPM++ SDE Karras"]

for seed, cfg, sampler in itertools.product(seeds, cfgs, samplers):
    image = pipe(
        prompt,
        num_inference_steps=25,
        guidance_scale=cfg,
        generator=torch.Generator().manual_seed(seed)
    ).images[0]
    fname = f"grid_s{seed}_c{cfg}_{sampler.replace(' ', '_')}.png"
    image.save(os.path.join("outputs", fname))

上手 Stable Diffusion：提示词、模型与调参经验

上手 Stable Diffusion：提示词、模型与调参经验

原理其实很简单：扩散模型三步法

从马赛克到猫娘：去噪流水线

更多推荐文章

相关免费在线工具

核心组件：潜空间、UNet、CLIP

省显存、加速与白嫖 GPU

提示词实战：好词句是成功的一半

扩展插件：ControlNet、LoRA、Textual Inversion

常见翻车现场与抢救

调参心得与批量跑图

写在最后

更多推荐文章

相关免费在线工具

上手 Stable Diffusion：提示词、模型与调参经验

上手 Stable Diffusion：提示词、模型与调参经验

原理其实很简单：扩散模型三步法

从马赛克到猫娘：去噪流水线

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心组件：潜空间、UNet、CLIP

省显存、加速与白嫖 GPU

提示词实战：好词句是成功的一半

扩展插件：ControlNet、LoRA、Textual Inversion

常见翻车现场与抢救

调参心得与批量跑图

写在最后

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具