Stable Diffusion WebUI云部署

Stable Diffusion WebUI云部署

本地部署虽然方便,但对硬件要求高,尤其是显存。云服务器(特别是带有GPU的实例)可以让我们用较低成本体验强大的AI绘画能力,并且可以随时随地通过浏览器访问,非常方便。

一、 部署前的准备

1.1 选择合适的云服务器:

  • GPU型号: 优先选择NVIDIA显卡,如V100, T4, P4, 1080Ti, 2080Ti, 3090, 4090等。显存越大越好,至少8GB起步,推荐12GB以上。
  • 操作系统: Linux发行版(如Ubuntu 20.04 LTS, Debian 11, CentOS 7/8等)是首选,社区支持好,文档丰富。
  • 网络带宽: 部署初期需要下载大量模型和依赖,一个稳定的网络环境至关重要。

1.2 环境配置:

  • Python版本: 推荐使用Python 3.10.x(如3.10.6)。过高或过低的版本都可能与某些依赖库不兼容。
  • 虚拟环境: 务必使用venvconda创建独立的虚拟环境。这可以避免依赖冲突,方便管理,是部署的“黄金法则”。
  • Git配置: 确保Git已安装。如果在国内访问GitHub较慢,可以考虑配置镜像源,例如设置环境变量HF_ENDPOINT指向镜像站(如https://hf-mirror.com),这能极大加速模型下载。

我这里选择的是Ubuntu + RTX3090,显存24G,网络带宽600多MB/s,python3.10.6 + minconda。

二、项目部署

2.1 获取项目代码

克隆仓库:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

若网络问题,也可以手动现在zip压缩包,再上传,代码结构大概是这样:

其中webui.sh是启动项目的脚本文件,launch.py是程序启动起点文件,启动时会按照modules/launch_utils.py文件的流程配置环境。

2.2 性能优化

启动前,安装 libgoogle-perftools4 和 libtcmalloc-minimal4 库,可以优化程序性能。

sudo apt-get install libgoogle-perftools4 libtcmalloc-minimal4 -y 

2.3 启动项目

HF_ENDPOINT=https://hf-mirror.com ./webui.sh --port 7860 --listen --enable-insecure-extension-access --xformers

(1)HF_ENDPOINT=https://hf-mirror.com

  • 是设置中文镜像,等同于先用export HF_ENDPOINT=https://hf-mirror.com 配置环境变量再启动。
  • 作用是将所有从 Hugging Face(huggingface.co)下载模型、配置文件等的请求,重定向到镜像站 hf-mirror.com,对国内用户非常有用,可解决 Hugging Face 官网访问慢或无法下载的问题。

(2)--port 7860

指定 WebUI 监听的端口号,项目的默认监听端口是7860,但也可以改成其他端口(如 8080

(3)--listen

  • 作用:让 WebUI 服务器监听 所有网络接口(而不仅仅是 127.0.0.1)。
  • 默认情况下,WebUI 只允许本地访问(即只能在本机浏览器打开)。
  • 加上 --listen 后,局域网内其他设备(甚至公网,如果你有暴露端口)也能访问WebUI。

(4)--enable-insecure-extension-access

  • 作用:允许扩展(extensions)访问本地文件系统或执行不安全操作。
  • 一些社区扩展(如模型管理器、LoRA 加载器、自定义脚本)需要更高权限才能正常运行。
  • 默认出于安全考虑是 禁用 的;启用后可能带来安全风险(比如恶意扩展读取或删除文件)。
  • 仅在信任所安装的扩展时才建议启用。

(5)--xformers

  • 作用:启用 xFormers 优化。
  • xFormers 是一组用于加速 Transformer 模型(如 Stable Diffusion)的高效注意力操作实现。
  • 启用后通常可以:
    • 降低显存占用
    • 提升生成速度(尤其在生成高分辨率图像时)
  • 要求系统已正确安装 xformers 包(通常 webui.sh 会自动尝试安装)。
  • 仅支持 NVIDIA GPU(CUDA),不适用于 AMD 或 CPU 推理。

2.4 部署说明

(1)项目启动后,项目目录中会多出一个stable-diffusion-webui目录,这个是存放环境依赖的目录,与项目本身的目录有区别,虽然名字差不多。

(2)使用conda不用venv创建虚拟环境,将weiui.sh文件中的use_venv变量值从1改为0

三、避坑指南

部署过程中会遇到很多坑:

3.1 网络问题,配置环境失败

这种情况,要么检查自己云主机能否联网、带宽够不够用,或者需要下载的的包是否是外网需要代理,实在不行也可以离线安装。

3.2 磁盘空间不够

有的包占用空间太大,磁盘不够用,可以考虑扩充磁盘空间。

3.3 用户权限问题

webui.sh文件中默认设置不可使用root用户启动项目,这个是为了安全考虑,可以创建一个新用户来启动项目。个人使用的话,最直接的解决方案就是,把1处的can_run_as_root=0改成1,或者注释2处的“Do not run as root”这块的脚本

3.4 依赖CLIP 包和pytoch安装失败

对于CLIP 包和pytoch安装失败的问题,可能是github下载时网络太慢,可以添加代理,在modules/launch_utils.py中的所有https://github.com/xxx.git 前面加 https://mirror.ghproxy.com/

若还是不行,可以考虑离线安装。

3.5 依赖stablediffusion安装失败

对于fatal: repository 'https://github.com/Stability-AI/stablediffusion.git/' not found的问题,Stability-AI/stablediffusion项目地址在github上不存在了。

(1)可以modules/lunch_utils.py文件中,将将https://github.com/Stability-AI/stablediffusion.git替换成https://github.com/CompVis/stable-diffusion.git,或者是https://github.com/w-e-w/stablediffusion.git,官方给的是后者。

(2)若仍然有问题,可以尝试在 stable-diffusion-webui/repositories 目录下手动克隆CompVis/stable-diffusion仓库:

git clone --config core.filemode=false https://github.com/CompVis/stable-diffusion.git ./stable-diffusion-webui/repositories/stable-diffusion-stability-ai
--config core.filemode=false 是 Git 克隆(git clone)命令中的一个配置选项,在 Unix/Linux 系统中,文件具有执行权限、读写权限等文件模式(file mode)。默认情况下,Git 会跟踪这些文件权限的变化(尤其是可执行位 x)。core.filemode=true(默认在 Linux/macOS 上):Git 会检测并记录文件可执行权限的变化。core.filemode=false:Git 忽略文件权限变化,只关注文件内容。

    同理,对于generative-models下载报错,也同样可以手动下载

    git clone --config core.filemode=false https://github.com/Stability-AI/generative-models.git repositories/generative-models

    3.6 Git 访问认证

    从 https://github.com 克隆 stable-diffusion-stability-ai 仓库时,需要Git 访问认证,登录的是github的用户名,但是密码要用秘钥而不是账号密码。

    使用个人访问令牌 (Personal Access Token, PAT) 生成 Personal Access Token (PAT):登录你的 GitHub 账户 (Kysen121)。访问 GitHub 设置页面 (Settings) -> 开发者设置 (Developer settings) -> 个人访问令牌 (Personal access tokens) -> 令牌 (Tokens) (classic) 或 (Fine-grained tokens)。点击 "Generate new token" (生成新令牌)。为令牌设置一个名称 (Note) 和过期时间。关键步骤: 为令牌分配必要的权限 (Scopes/Permissions)。对于克隆 公共 仓库,通常 public_repo 权限就足够了。如果 Stability-AI/stablediffusion 仓库是私有的(根据你提供的信息,它现在是公开的),你需要确保令牌具有访问该私有仓库的权限(例如 repo 权限)。生成令牌后,务必立即复制 它。一旦离开该页面,你将无法再次看到完整的令牌字符串。使用 PAT 进行克隆:当 Git 再次提示输入 Password 时,不要输入你的 GitHub 密码,而是粘贴你刚刚生成的 Personal Access Token

    若还有权限问题,可以使用 ‘3.4 依赖安装失败’ 中的的启动指令加 --skip-prepare-environment 的方式解决。

    3.7 NumPy 版本兼容性问题

    错误信息: A module that was compiled using NumPy 1.x cannot be run in NumPy 2.2.6

    原因: 安装的 PyTorch 等包是基于 NumPy 1.x 编译的,但当前环境使用 NumPy 2.x

    解决方案:

    # 降级 NumPy 到 1.x 版本 pip install "numpy<2" 

    3.8 缺失依赖包pytorch_lightning、gradio

    项目 缺失 pytorch_lightning 和 gradio 依赖

    解决方案:

    pip install pytorch_lightning pip install gradio

    如果使用 HF_ENDPOINT=https://hf-mirror.com ./webui.sh --port 7860 --listen --enable-insecure-extension-access --xformers --skip-prepare-environment 指令来启动项目,--skip-prepare-environment使得跳过依赖的安装,可以再用 pip install -r requirements_versions.txt 指令将缺失的依赖补上,其中就包含pytorch_lightning、gradio包。

    3.9 git拉取依赖失败

    如3.5中Stability-AI/stablediffusion更换成CompVis/stable-diffusion后仍git仍拉取依赖项目失败,以及generative-models、generative-models、BLIP依赖项目git拉取失败,可以考虑手动拉取,在webui项目路径下执行:

    git clone --config core.filemode=false https://github.com/CompVis/stable-diffusion.git ./repositories/stable-diffusion-stability-ai git clone --config core.filemode=false https://github.com/Stability-AI/generative-models.git ./repositories/generative-models git clone --config core.filemode=false https://github.com/crowsonkb/k-diffusion.git ./repositories/generative-models git clone --config core.filemode=false https://github.com/salesforce/BLIP.git ./repositories/BLIP

    Read more

    采摘机器人毕业设计实战:从机械控制到感知决策的全栈实现

    最近在指导几位同学完成采摘机器人相关的毕业设计,发现大家普遍在从理论到实践的转化过程中遇到不少共性问题。比如算法在电脑上跑得好好的,一上实机就各种延迟、丢帧;机械臂的运动规划和视觉感知像是两个独立的系统,难以协同;还有系统集成后调试困难,牵一发而动全身。结合这些实际痛点,我梳理了一套基于ROS 2和STM32的全栈实现方案,希望能为正在或即将进行类似毕设的同学提供一个清晰、可复现的参考路径。 1. 毕业设计常见痛点深度剖析 在开始技术选型之前,我们先明确要解决哪些核心问题。很多同学的毕设停留在仿真或单个模块演示阶段,难以形成完整的闭环系统,主要痛点集中在以下几个方面: 1. 算法与执行器严重脱节:这是最常见的问题。同学们往往在Jupyter Notebook或OpenCV的窗口中完成了漂亮的果实识别,识别框画得精准,但识别结果如何转换成机械臂末端执行器的空间坐标?这个坐标转换涉及相机标定、手眼标定、坐标系变换等一系列步骤,任何一个环节出错都会导致“看得见但抓不着”。更复杂的是,视觉算法输出的频率(如10Hz)与底层电机控制频率(可能高达100Hz)不匹配,如果没有良好的中间层进

    本地AI电话机器人-将手机电话通话声音通过udp传输到局域网的Python脚本

    本地AI电话机器人-将手机电话通话声音通过udp传输到局域网的Python脚本

    将手机电话通话声音通过udp传输到局域网的Python脚本 --本地AI电话机器人 * 一、前言 上一篇:手机转SIP-手机做中继网关-落地线路对接软交换呼叫中心下一篇:刷抖音/看电子书-如何让手机自动上下翻页和左右翻页 前面我们通过两个篇章《手机SIM卡通话中随时插入录音语音片段(Android方案)》《手机SIM卡通话中随时插入录音语音片段(Windows方案)》,阐述了【手机打电话过程中,随机插播预录语音片段】的功能和根据对方手机按下DTMF按键,播放不同IVR应答语音片段给对方手机的能力。 在AI电话沟通时,由于手机性能和算力的局限性,通常AI交互的模型和算法无法部署到手机上。这样的话就需要将拦截到的手机通话的声音数据,通过网络(局域网或互联网)将语音包传输给AI算力服务器。由其对语音进行ASR识别和语义理解,并生成最终的应答TTS语音,反馈回手机注入到电话通话中。 当前市面上主流的实时语音流的传输方式主要有两种: 1)SIP/WebRTC协议及配套的RTP/RTCP语音数据传输。 2)直接将语音数据以udp广播或组播的方式分发给局域网内多个设备。 前面我们

    ABB 机器人虚拟示教器基础操作教程

    ABB 机器人虚拟示教器基础操作教程

    一、基础操作界面与模式 1. 操作模式切换 * 手动模式:用于编程、调试和手动操作 自动模式:用于程序自动运行(需满足安全条件) 2. 动作模式选择(手动模式下) * 单轴模式:单独控制每个关节轴(1-6轴) * 优点:最直观,与坐标系无关 * 用途:调整机器人姿态,避免奇异点 * 线性模式:TCP沿直线运动 * 重定位模式:TCP位置不变,只改变工具姿态 点击示教器左上角 进入菜单栏 3. 坐标系选择(线性/重定位模式下) 四个可选坐标系: * 大地坐标系:机器人安装的基础坐标系 * 基座坐标系:机器人底座中心为原点(多数基本选择) * 工件坐标系:用户自定义的工作平面 * 工具坐标系:以工具末端为原点 二、三大核心数据设置 1. 工具数据(tooldata) 定义:描述工具(

    论文笔记DiT:Scalable Diffusion Models with Transformers(含transformer的可扩展扩散模型 )

    论文笔记DiT:Scalable Diffusion Models with Transformers(含transformer的可扩展扩散模型 )

    Abstract:     论文的核心思想非常直接:用一个标准的 Transformer 架构替换掉扩散模型中常用的 U-Net 主干网络,并证明这种新架构(称为 DiT, Diffusion Transformer)具有出色的可扩展性(Scalability)。 Background & Motivation:     在论文发表前,Transformer 已经在自然语言处理(BERT, GPT)和计算机视觉(ViT)等领域取得了巨大成功,成为了一种“统一”的架构。然而,在图像生成领域,特别是扩散模型中,大家仍然普遍使用 U-Net。U-Net 因其多尺度特征融合和卷积的局部归纳偏置而被广泛采用。     在深度学习中,一个好的架构应该具备良好的“可扩展性”——即投入更多的计算资源(更大的模型、更多的数据),性能应该会持续稳定地提升。ViT 已经证明了 Transformer 在视觉识别任务上具有这种特性。作者们希望验证 DiT 是否也具备这种优良特性,为未来的生成模型发展指明一条清晰的路径。