基于 Stable Diffusion 的 AI 视频生成与背景替换教程
1. 概述
本教程介绍如何利用 Stable Diffusion (SD) 配合 IS-Net 插件实现 AI 视频生成。主要流程包括视频帧提取、背景去除、文生图重绘及视频合成。通过 ControlNet 控制画面风格,结合 Prompt 工程优化生成质量,最终输出带有配音的合成视频。
2. 准备工作
制作此类视频效果,需要满足以下基础条件:
- 环境准备:部署 Stable Diffusion WebUI 环境(推荐云平台或本地 GPU 环境)。
- 素材准备:一段原始视频文件(如人物舞蹈或动作视频)。
- 插件安装:安装
sd-webui-IS-NET-pro插件用于视频处理。
2.1 部署 Stable Diffusion 环境
建议使用 Docker 或云端环境部署 SD,以减少本地配置依赖和驱动冲突问题。确保显卡显存充足(建议 8GB 以上),并安装 PyTorch 及相关 CUDA 库。
2.2 安装 sd-webui-IS-NET-pro 插件
IS-Net 插件主要用于将视频拆分为多帧图片、批量抠图以及多帧图片转视频处理。
安装步骤:
- 进入 SD WebUI 页面,点击
Extension->Install from URL。 - 输入插件仓库地址:
https://github.com/ClockZinc/sd-webui-IS-NET-pro.git - 点击
Install等待安装完成。 - 重启 SD WebUI。
- 下载
isnet-general-use.pth模型文件,放置到以下目录后再次重启:/home/user/data/sd/extensions/sd-webui-IS-NET-pro/saved_models/IS-Net
3. 视频制作流程
整体流程包含六个核心步骤:
- 视频分帧:使用 IS-Net Pro 将视频切分为单张图片序列。
- 背景去除:利用 IS-Net 模型对人物进行精确分割,去除背景。
- 文生图重绘:根据提示词生成新的背景或风格化图像。
- 固定 Seed 批量生成:锁定随机种子,批量生成匹配的视频帧。
- 图片转视频:将处理后的图片序列合并为视频文件。
- 后期剪辑:添加音频、特效等。
3.1 视频分成多帧
在 SD 页面切换到 IS-Net Pro 插件选项卡,选择 video2frame 功能。
- 操作:上传原始视频文件。
- 输出目录:设置图片保存路径,例如
/home/user/data/sd/outputs/frams。 - 执行:点击
Generate Frames开始生成。
等待约 1 分钟(视视频长度而定),生成的图片序列可在指定目录下查看。建议检查图片命名是否连续,以便后续处理。
3.2 去除图片人物背景
切换到 IS-Net Pro 的 image background removal 模块。


