Stable Diffusion 图生图转视频工作流实战
环境搭建与工具选择
硬件要求
- 显卡:NVIDIA 显卡,显存建议 8GB 以上(6GB 也可运行,但帧数需调低)
- 内存:16GB+
- 系统:Windows 10/11(Linux 也可,本文以 Windows 为例)
软件工具
| 工具 | 说明 | 获取方式 |
|---|---|---|
| Stable Diffusion WebUI | 秋叶整合包或官方源码 | GitHub 或官方发布页 |
| AnimateDiff 插件 | 视频生成核心插件 | WebUI 扩展中搜索安装 |
| ControlNet 插件 | 可选,用于控制画面一致性 | WebUI 扩展中搜索安装 |
| Python | 3.10.x | 整合包自带 |
模型准备
- 底模:推荐写实风格
majicMIX realistic或二次元风格Anything V5(可在 Civitai 下载) - 运动模块:AnimateDiff 官方提供的
mm_sd_v15.ckpt(插件会自动下载,或手动放入models/AnimateDiff)
第一步:生成高质量基础图片(图生图)
视频的质量很大程度上取决于首帧图片的质量。如果直接用网上随便找的图,很可能因为风格不统一或细节缺失导致生成失败。因此,建议先用图生图(或文生图)生成一张满意的图片作为起点。
模型选择
- 写实人像:
majicMIX realistic或ChilloutMix - 二次元:
Anything V5或Counterfeit - 风景/建筑:
Realistic Vision或DreamShaper
提示词编写
提示词分为正向和负向,建议将关键描述词放在前面,用 (keyword:权重) 加强。
正向提示词示例(古风美女):
(masterpiece, best quality:1.2), 1girl, solo, chinese clothes, hanfu, looking at viewer, standing, garden, flowers, trees, soft lighting, detailed face, highly detailed skin, (wind blowing hair and clothes:1.1)
负向提示词(通用反咒):
nsfw, bad hands, bad fingers, missing fingers, extra fingers, bad face, bad eyes, bad proportions, ugly, duplicate, morbid, mutilated, tranny, trans, deformed, blurry, low quality, worst quality, signature, watermark, username, artist name


