Stable Diffusion 文生图基础详解与参数配置

一、引言

Stable Diffusion (SD) 是一种基于潜在扩散模型（Latent Diffusion Model）的生成式人工智能技术。它能够将文本描述转化为高质量的图像，广泛应用于艺术创作、设计辅助及内容生产等领域。本文档将详细介绍 SD Web UI 的核心功能模块、参数配置及优化技巧，帮助用户快速上手并掌握文生图的基本流程。

二、Web UI 界面概览

启动 Stable Diffusion Web UI 后，主要操作区域位于'文生图'（txt2img）标签页。界面通常包含以下几个核心区域：

模型选择区：用于加载不同的检查点模型（Checkpoint）。模型决定了图像的整体风格、画质和主体特征。常见的模型类型包括二次元风格（如 Anything）、真人写实风格（如 Deliberate, Realistic Vision）等。
提示词输入区（Prompt）：分为正向提示词和反向提示词。
- 正向提示词：描述你希望生成的画面内容，例如'一个女孩在公园'。
- 反向提示词：描述你不希望出现在画面中的元素，例如'模糊、畸形的手、低质量'。
采样设置区（Sampling）：控制图像生成的算法和迭代次数。
参数调节区（Parameters）：设置分辨率、批次大小、随机种子等。
脚本区（Scripts）：提供批量处理、多参数对比等高级功能。

三、模型选择策略

模型是决定出图效果的关键因素。安装完成后，默认可能包含以下类型的模型：

Anything 系列：擅长生成二次元、动漫风格的图像，色彩鲜艳，线条清晰。
Deliberate / Realistic Vision 系列：专注于真人摄影风格，光影自然，皮肤质感逼真。
通用模型：适合多种题材，但特定风格表现可能不如专用模型。

建议：根据目标风格选择合适的模型。若需生成高质量人像，推荐使用 Realistic Vision V2.0 或类似的高保真模型；若需动漫插画，则选择二次元专用模型。

四、提示词工程（Prompt Engineering）

提示词的编写质量直接决定生成结果。有效的 Prompt 应遵循一定的结构。

1. 正向提示词结构

建议采用 主体 + 环境 + 风格 + 质量修饰词 的结构。

(masterpiece:1.2), best quality, highres, 1girl, solo, looking at viewer, detailed face, beautiful eyes, soft lighting, cinematic composition

权重语法：使用 (keyword:1.2) 增加权重，或使用 [keyword] 减少权重。
质量词：加入 masterpiece, best quality, highres 等通用高质量标签可提升基础画质。

2. 反向提示词（Negative Prompt）

反向提示词用于排除不良特征。以下是常用的负面标签组合：

(worst quality:2), (low quality:2), (normal quality:2), lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry, artist name

特别注意（Not Safe For Work）相关标签，在工作场合使用时务必加入反向词以避免生成不当内容。

Stable Diffusion 文生图基础详解与参数配置