早就想试试 Stable Diffusion 能不能把一张静态图变成动态视频,最近折腾了一圈,把完整的工作流整理出来。整个过程不复杂,但坑不少,尤其是运动参数和显存控制,上手跑通之后你就会发现,关键在第一帧图片的质量和运动幅度的克制。
环境与工具
硬件:NVIDIA 显卡,显存最好 8GB 以上(6GB 也能跑,但要降低帧数)。内存 16GB+,系统 Windows 10/11。
软件:秋叶整合包或者官方源码部署的 Stable Diffusion WebUI,外加两个扩展:AnimateDiff(核心)和 ControlNet(可选,提升一致性)。WebUI 自带 Python 3.10.x,不用单独折腾。
模型方面你需要准备:
- 底模:写实用
majicMIX realistic,二次元用Anything V5,可去 Civitai 下载。 - 运动模块:AnimateDiff 官方的
mm_sd_v15.ckpt,首次使用在插件面板里一键下载,或者手动丢进models/AnimateDiff。
打好底子:生成高质量第一帧
视频好不好,70% 取决于首帧图片。直接拿网上找的图来生成,风格、细节往往会出问题,所以我们都自己出图。
模型选择:写实人像用 majicMIX realistic 或 ChilloutMix,二次元用 Anything V5,风景建筑用 Realistic Vision 或 DreamShaper,按需取用。
提示词分正负,关键描述放前面,可用 (关键词:权重) 强化。
正向提示词示例(古风美女):
(masterpiece, best quality:1.2), 1girl, solo, chinese clothes, hanfu, looking at viewer, standing, garden, flowers, trees, soft lighting, detailed face, highly detailed skin, (wind blowing hair and clothes:1.1)
负向提示词(通用反咒):
nsfw, bad hands, bad fingers, missing fingers, extra fingers, bad face, bad eyes, bad proportions, ugly, duplicate, morbid, mutilated, tranny, trans, deformed, blurry, low quality, worst quality, signature, watermark, username, artist name
生成参数我一般这样设:
- 采样器:
DPM++ 2M Karras(速度和质量均衡) - 步数:30(再高变化不大)
- CFG Scale:7(太高色彩过饱和)
- 尺寸:512x768(竖构图省显存,适合短视频)
- 种子:-1(随机)
跑完后满意就存为 PNG,便于后续导入。
让画面动起来:AnimateDiff 核心操作
在 WebUI 的'扩展'→'可用'里搜 AnimateDiff 安装,重启后图生图界面底下就会多出 AnimateDiff 折叠面板。运动模块选 mm_sd_v15.ckpt,没下载的话点'下载运动模块'自动拉取。
勾选'启用',接下来是几个关键参数:
| 参数 | 推荐值 | 说明 |
|---|


