一、前言
AI 视频生成技术快速发展,从 Runway Gen-2 到 Stable Diffusion 的 AnimateDiff 插件,静态图片'动起来'已不再是难题。初学者在实操时可能会遇到视频闪烁、人物变形、运动不自然等问题。
本文将以 Stable Diffusion WebUI + AnimateDiff 为主线,详细拆解从图生图(优化图片)到图生视频的全流程操作,并附上可直接复制的提示词和参数表。
二、环境搭建与工具选择
2.1 硬件要求
- 显卡:NVIDIA 显卡,显存建议 8GB 以上(6GB 也可运行,但帧数需调低)
- 内存:16GB+
- 系统:Windows 10/11(Linux 也可,本文以 Windows 为例)
2.2 软件工具
| 工具 | 说明 | 获取方式 |
|---|---|---|
| Stable Diffusion WebUI | 整合包或官方源码 | GitHub |
| AnimateDiff 插件 | 视频生成核心插件 | WebUI 扩展中搜索安装 |
| ControlNet 插件 | 可选,用于控制画面一致性 | WebUI 扩展中搜索安装 |
| Python | 3.10.x | 整合包自带 |
2.3 模型准备
- 底模:推荐写实风格
majicMIX realistic或二次元风格Anything V5 - 运动模块:AnimateDiff 官方提供的
mm_sd_v15.ckpt(插件会自动下载,或手动放入models/AnimateDiff)
三、第一步:生成高质量基础图片(图生图)
视频的质量很大程度上取决于首帧图片的质量。如果直接用网上随便找的图,很可能因为风格不统一或细节缺失导致生成失败。因此,建议先用图生图(或文生图)生成一张满意的图片作为起点。
3.1 模型选择
- 写实人像:
majicMIX realistic或ChilloutMix - 二次元:
Anything V5或Counterfeit - 风景/建筑:
Realistic Vision或DreamShaper
3.2 提示词编写
提示词分为正向和负向,建议将关键描述词放在前面,用 (keyword:权重) 加强。
正向提示词示例(古风美女):
(masterpiece, best quality:1.2), 1girl, solo, chinese clothes, hanfu, looking at viewer, standing, garden, flowers, trees, soft lighting, detailed face, highly detailed skin, (wind blowing hair and clothes:)


