基于 Stable Diffusion 从零搭建图文视频生成网站教程
本文介绍如何使用 Stable Diffusion WebUI 搭建本地 AI 图像生成环境。涵盖 Python 虚拟环境配置、PyTorch GPU 版本安装、模型下载与管理、汉化及 Deforum 插件部署。详细讲解提示词编写、LoRA 风格迁移、动画视频关键帧设置以及结合外部工具实现图片说话功能的技术流程。旨在帮助开发者快速掌握 AIGC 内容生成的基础架构与核心操作。

本文介绍如何使用 Stable Diffusion WebUI 搭建本地 AI 图像生成环境。涵盖 Python 虚拟环境配置、PyTorch GPU 版本安装、模型下载与管理、汉化及 Deforum 插件部署。详细讲解提示词编写、LoRA 风格迁移、动画视频关键帧设置以及结合外部工具实现图片说话功能的技术流程。旨在帮助开发者快速掌握 AIGC 内容生成的基础架构与核心操作。

Stable Diffusion 的发布是 AI 图像生成发展过程中的一个里程碑,相当于给大众提供了一个可用的高性能模型,让「AI 文本图片生成」变成普通人也能玩转的技术。最近一些网友将网上的真人图片不断喂给模型,让其自主学习,训练出来的效果已经可以做到以假乱真。本文将从零开始,手把手教你如何搭建自己的本地 AI 图文视频生成环境。
本篇我们将单刀直入教各位最快搭建出一个质量不错的 AI 网站。下文会提及的模型、插件和源码,均为开源社区通用资源。
第一步,我们需要在电脑上安装 Python 3.10.6 版本。如果已经安装了其他 Python 版本,可以利用 conda 安装多一个 3.10 的虚拟环境版本:
conda create -n sd_env python==3.10.6
激活该环境:
conda activate sd_env
接下来下载 Stable Diffusion WebUI 的官方仓库代码:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
进入刚刚创建的虚拟环境后,需要安装对应的 GPU 版本的 Pytorch。请根据显卡型号选择 CUDA 版本(此处以 CUDA 11.6 为例):
python -m pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
安装成功后,可以测试自己的 PyTorch 版本是否可以跑通:
import torch
print(torch.cuda.is_available())
如果输出 True,说明 GPU 驱动配置成功。
进入刚刚下载的 Github 仓库的代码文件夹,安装第三方依赖:
python -m pip install -r requirements.txt
有了网站之后,就需要下载对应的 AI 模型进行有效生成。一些网友已经利用网上大量的图片训练好的模型,并分享到网站上。
可以在模型资源站找到很多已经训练好的模型。例如找一个生成真人图片的模型:ChilloutMix。从网页上下载对应的模型文件(通常为 .safetensors 或 .ckpt 格式),把该模型放到工程目录下的 models/Stable-diffusion 文件夹中。
重启 WebUI 后,在界面顶部的下拉菜单中即可选择加载该模型。
stable-diffusion-webui 这个项目支持下载第三方插件。例如我们可以下载对应的汉化插件。
登陆扩展管理页面,搜索中文语言包插件。下载插件的安装包后,将其解压放到 extensions 目录下。
接着,需要对网页进行重启服务。在扩展选项卡中,勾选刚安装的插件,并在设置中找到 zh_CN 语言选项,最后重新启动网页,界面即可生效为中文。
启动主程序 launch.py,等待一定的时间出现网页地址就可以了。打开网址时,有时候可能模型没有更新,因此可以尝试多次重启。需要选择刚刚下载的模型:ChilloutMix。
这样就已经完成前期的部署工作了。接下来详细教大家怎么生成自己想要的图片。
在模型资源站上,已经有很多大神利用 Prompt 生成图片了,因此我们就可以对这些进行参考。例如找一个好看的图片,对下面的 Prompt 词语进行复制。
其中 Prompt 词语放在提示词框内,消极 Prompt 词语放在对应的方框内。同时调整对应的参数(如采样步数、CFG Scale、分辨率),最后就可以生成真人图片。
在模型资源站上,还有很多 LoRA 模型可以进行下载。这是一种可以帮助你调整画风的小模型。主要是放到 Prompt 中进行使用。
例如我们可以在网站上下载原神风格的 LoRA 模型。下载完成后,把模型放到 models/Lora 路径下。按照步骤选中模型后,会看到具体的 Prompt 在方框内被自动填充。
把基础 Prompt 词语加入到这里,就可以生成一个特定风格的图片。
首先需要安装插件 Deforum。这个插件能够根据多个生成的图片构造成视频动画。
在当前 stable-diffusion 目录下,执行下面命令,就会发现 extensions 多了新的插件:
git clone https://github.com/deforum-art/deforum-for-automatic1111-webui extensions/deforum
同时重启新的网页,会发现多了 Deforum 这个选项。
可以先执行简单的生成,在提示词上,已经默认填写了语句模板:
{
"0": "tiny cute swamp bunny, highly detailed, intricate, ultra hd, sharp photo",
"30": "anthropomorphic clean cat, surrounded by fractals, epic angle and pose",
"60": "a beautiful coconut --neg photo, realistic",
"90": "a beautiful durian, trending on Artstation"
}
Prompt 词语模板解释如下:
//Abstracted Example
{
"0": "Prompt A --neg NegPompt",
"12": "Prompt B"
}
其中'0'和'12'提示在插值中解析的关键帧。Prompt A 和 B 是肯定提示,NegPrompt 是否定提示。当然,也可以直接用上面模型资源站下载下来的模型,生成真人动画。
从上面我们已经得到了生成的图片。那么就可以利用这张图片,创建自己的 AI 说话视频。
目前市面上有多种工具可以实现此功能,例如 SadTalker 等开源项目,或者在线服务。选择工具后,上传刚刚生成的图片,然后输入自己想要说的话(音频文件或文本转语音),之后生成就可以了。
最后就可以得到比较逼真的真人 AI 说话视频了。
有了这个技术,就可以批量制作二次元甚至是真人说话视频。这对于 AIGC 内容创作行业是一个颠覆性的技术,相信未来这个技术在多个领域上都能够推广开来。
如果在运行过程中遇到 OOM (Out Of Memory) 错误,可以尝试以下方法:
--medvram 或 --lowvram 启动参数。通过上述步骤,我们成功搭建了基于 Stable Diffusion 的本地图文视频生成平台。掌握了环境配置、模型管理、插件扩展以及基本的提示词工程技巧。随着技术的不断发展,AIGC 技术将在游戏、计算、影视等领域得到更广泛的应用,使系统具有更高效、更智能的特性。对于开发者而言,深入理解这些底层逻辑和技术实现至关重要。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online