【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel(RTX 3090 sm_86)

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel(RTX 3090 sm_86)

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel(RTX 3090 sm_86)

系列:Windows AI 环境 “没有轮子(.whl)就自己造” 从零到一 · 第 N 期
难度:⭐⭐⭐⭐
适用场景:SD WebUI + xformers 0.0.31.post1 + flash-attn 版本冲突修复

适用场景:其他版本的 Flash-Attention 编译实战请见文末引用链接

一、背景与问题描述

彻底解决 Stable Diffusion WebUI 启动报错:AttributeError: ‘MessageFactory’ object has no attribute ‘GetProto
【SD WebUI踩坑】启动报错 Expecting value: line 1 column 1 (char 0) 的终极解决方案

最近给 Stable Diffusion WebUI(AUTOMATIC1111)加了一条启动参数:

--xformers-flash-attention

以开启 Flash-Attention 注意力加速。启动后,日志中出现以下报错:

*** Cannot import xformers ImportError: Requires Flash-Attention version >=2.7.1,<=2.8.0 but got 2.8.3. *** Error loading script: inpaint_anything.py ImportError: Requires Flash-Attention version >=2.7.1,<=2.8.0 but got 2.8.3. 

根本原因xformers 0.0.31.post1 对 flash-attn 有严格的版本上限要求(<=2.8.0),而环境中装的是 flash-attn 2.8.3,触发硬性版本检查导致导入失败,进而引发 inpaint_anything 等依赖 diffusers 的插件连锁崩溃。

解决思路:将 flash-attn 降级到 2.8.0。由于 flash-attn 官方没有 Windows 预编译 wheel,需要从源码本地编译。

快速查找 FlashAttention的预构建轮子(flash_attn wheels):Windows/Linux 用户快速查找神器

二、环境信息

项目版本
OSWindows 11
GPURTX 3090(sm_86)
驱动595.02
Python(venv)3.11.13
PyTorch2.7.1+cu126
xformers0.0.31.post1
CUDA 编译器13.1(nvcc V13.1.80)
Visual StudioVS 2022 / VS 18 Insiders(MSVC 14.50.35717)
Windows SDK10.0.26100.0
SD WebUI 路径G:\PythonProjects2\stable-diffusion-webui
⚠️ 注意:PyTorch 内部 CUDA 版本是 12.6,但编译时需要用 CUDA 13.1,原因见第四节。

三、克隆 flash-attn 2.8.0 源码

Dao-AILab/flash-attention:快速且内存高效的精确注意力
cd G:\PythonProjects2\stable-diffusion-webui git clone https://github.com/Dao-AILab/flash-attention.git --branch v2.8.0 --depth 1 

--depth 1 只拉最新一个 commit,节省流量和时间(约 5MB)。


四、为什么不用 CUDA 12.6 编译?

flash-attn 2.8.0 的 setup.py 在检测到 bare_metal_version >= 12.8 时会自动向架构列表追加 sm_100sm_120(Blackwell 架构):

# setup.py 第 186-189 行 if bare_metal_version >= Version("12.8") and "100" in cuda_archs(): ... if bare_metal_version >= Version("12.8") and "120" in cuda_archs(): ... 

当用 CUDA 13.1(>= 12.8)时,这两行会触发;而 CUDA 12.6 的 nvcc 不支持 compute_120,导致:

nvcc fatal: Unsupported gpu architecture 'compute_120' 

因此必须使用 CUDA 13.1 编译,同时通过 TORCH_CUDA_ARCH_LIST=8.6 限定只编译 RTX 3090 所需的架构,跳过 sm_100/sm_120 的实际 kernel 编译。


五、编译环境准备

Switch-CUDA 脚本来源详见:

Windows 多版本 CUDA + cuDNN 环境配置完全指南

5.1 切换 CUDA 版本

使用 Switch-CUDA 脚本切换到 CUDA 13.1:

. D:\Program\switch-cuda.ps1 Switch-CUDA 13.1 

输出确认:

✅ 已切换到 CUDA 13.1 CUDA : C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1 Cuda compilation tools, release 13.1, V13.1.80 

5.2 挂载 subst 虚拟盘(规避长路径)

subst Z: "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1" 

5.3 设置编译环境变量

$env:CUDA_HOME = "Z:" $env:CUDA_PATH = "Z:" $env:CUDA_ROOT = "Z:" $env:CudaToolkitDir = "Z:" $env:TORCH_CUDA_ARCH_LIST = "8.6" # 仅编译 RTX 3090 所需架构 $env:FLASH_ATTN_CUDA_ARCHS = "86" # flash-attn 内部架构控制 $env:FLASH_ATTENTION_FORCE_BUILD = "TRUE" # 强制本地编译,跳过预编译 wheel 下载 $env:MAX_JOBS = "8" # 并行编译任务数 $env:NVCC_THREADS = "2" # nvcc 内部线程数 $env:DISTUTILS_USE_SDK = "1" # 强制使用 MSVC SDK $env:NVCC_PREPEND_FLAGS = "-allow-unsupported-compiler" # 绕过 nvcc VS 版本检查 

5.4 配置 x64 MSVC 编译器

查找系统中可用的 x64 cl.exe:

Get-ChildItem "C:\Program Files\Microsoft Visual Studio" -Recurse -Filter "cl.exe" -ErrorAction SilentlyContinue | Where-Object {$_.FullName -like "*Hostx64\x64*"} | Select-Object FullName 

将最新版本的 x64 cl.exe 加入 PATH 最前面(本例为 VS 18 Insiders 14.50.35717):

$env:PATH = "C:\Program Files\Microsoft Visual Studio\18\Insiders\VC\Tools\MSVC\14.50.35717\bin\Hostx64\x64;" + $env:PATH 

验证:

cl.exe 2>&1 | Select-Object -First 1 # 应输出:Microsoft (R) C/C++ Optimizing Compiler 19.50.xxxxx for x64 

5.5 添加 Windows SDK rc.exe

链接阶段需要 rc.exe(Windows 资源编译器),通常不在默认 PATH 中:

$env:PATH = "C:\Program Files (x86)\Windows Kits\10\bin\10.0.26100.0\x64;" + $env:PATH where.exe rc.exe # 确认可找到 

5.6 验证关键工具

where.exe nvcc # 应指向 CUDA 13.1 where.exe cl.exe # 应指向 x64 MSVC where.exe rc.exe # 应指向 Windows SDK 

六、关键 Patch:绕过 PyTorch CUDA 版本检查

PyTorch 的 cpp_extension.py 会校验 nvcc 版本与 PyTorch 内部 CUDA 版本是否一致。由于 PyTorch 是 cu126 版本,而我们用 CUDA 13.1 的 nvcc 编译,会触发:

RuntimeError: The detected CUDA version (13.1) mismatches the version that was used to compile PyTorch (12.6). 

定位问题行

$file = "G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py" # 先用 Python 确认实际缩进(repr 显示原始字符) G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c " f = open(r'$file', encoding='utf-8') lines = f.readlines() f.close() for i, line in enumerate(lines[474:484], start=475): print(repr(line)) " 

确认目标行内容后,用 Python 精确替换(避免 PowerShell 字符串编码问题):

G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c " f = open(r'G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py', encoding='utf-8') content = f.read() f.close() old = ' raise RuntimeError(CUDA_MISMATCH_MESSAGE.format(cuda_str_version, torch.version.cuda))' new = ' pass # raise RuntimeError(CUDA_MISMATCH_MESSAGE.format(cuda_str_version, torch.version.cuda))' print('found:', old in content) content2 = content.replace(old, new) open(r'G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py', 'w', encoding='utf-8').write(content2) print('done') " 

输出 found: True + done 即成功。

⚠️ 还原说明:编译完成后建议还原此文件,执行 pip install --force-reinstall --no-deps torch==2.7.1+cu126 --index-url https://download.pytorch.org/whl/cu126 即可覆盖还原。

七、执行编译

# 清理上次失败的缓存(如有) Remove-Item -Recurse -Force G:\PythonProjects2\stable-diffusion-webui\flash-attention\build -ErrorAction SilentlyContinue # 进入源码目录 cd G:\PythonProjects2\stable-diffusion-webui\flash-attention # 开始编译 G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe setup.py bdist_wheel ` --dist-dir G:\PythonProjects2\stable-diffusion-webui\wheels 

编译过程会大量刷屏(ninja 调用 nvcc 编译各 kernel),属正常现象。RTX 3090 + MAX_JOBS=8 约需 30~60 分钟

编译成功标志:

adding 'flash_attn-2.8.0.dist-info/RECORD' removing build\bdist.win-amd64\wheel 

八、安装 Wheel

# 确认生成的 whl 文件 Get-ChildItem G:\PythonProjects2\stable-diffusion-webui\wheels\flash_attn*.whl # 安装进 SD WebUI venv(--no-deps 避免意外升级 torch) G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\pip.exe install ` G:\PythonProjects2\stable-diffusion-webui\wheels\flash_attn-2.8.0-cp311-cp311-win_amd64.whl ` --force-reinstall --no-deps 

预期输出:

Successfully installed flash-attn-2.8.0 

九、验证

# 验证 xformers 可正常导入 G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c "import xformers; print('xformers OK:', xformers.__version__)" # 输出:xformers OK: 0.0.31.post1 

启动 SD WebUI,日志中应出现:

Applying attention optimization: xformers... done. 

原来的两处报错全部消失:

  • Cannot import xformers → 消失
  • Error loading script: inpaint_anything.py → 消失

Flash-Attention 注意力加速开启成功 ✅


十、踩坑全记录

#报错原因解决
1nvcc cannot find a supported version of Microsoft Visual Studio在普通 PowerShell 中运行,未初始化 VS 环境手动将 VS x64 cl.exe 目录加入 PATH
2fatal error C1189: You need C++17 to compile PyTorchPATH 中的 cl.exe 是旧版 x86(VS 2019 14.16)将 VS 18 Insiders 14.50.35717\Hostx64\x64 加到 PATH 最前面
3RuntimeError: CUDA version (13.1) mismatches PyTorch (12.6)PyTorch cpp_extension.py 的版本硬检查Python 直接替换文件,将 raise RuntimeError 改为 pass
4nvcc fatal: Unsupported gpu architecture 'compute_120'CUDA 12.6 不支持 sm_120;setup.py 在 CUDA≥12.8 时自动追加该架构改用 CUDA 13.1 编译
5LINK: fatal error LNK1158: 无法运行"rc.exe"Windows SDK rc.exe 不在 PATHWindows Kits\10\bin\10.0.26100.0\x64 加入 PATH
6IndentationError: expected an indented block after 'if' statement注释掉 raise RuntimeErrorif 块变空pass 替换(同行注释形式,避免缩进问题)
7PowerShell .Replace() 无法匹配文件内容文件实际缩进(12空格)与肉眼估计(16空格)不符;PowerShell 字符串有编码问题先用 Python repr() 查看原始内容,再用 Python 执行替换

十一、完整环境变量一览

# ============================== # Flash-Attn 2.8.0 编译环境设置 # 适用:Python 3.11 + PyTorch 2.7.1+cu126 + RTX 3090 # ============================== # 1. 切换 CUDA . D:\Program\switch-cuda.ps1 Switch-CUDA 13.1 # 2. subst 挂载 subst Z: /d # 先卸载旧挂载(如有) subst Z: "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1" # 3. CUDA 环境变量 $env:CUDA_HOME = "Z:" $env:CUDA_PATH = "Z:" $env:CUDA_ROOT = "Z:" $env:CudaToolkitDir = "Z:" # 4. 编译控制 $env:TORCH_CUDA_ARCH_LIST = "8.6" $env:FLASH_ATTN_CUDA_ARCHS = "86" $env:FLASH_ATTENTION_FORCE_BUILD = "TRUE" $env:MAX_JOBS = "8" $env:NVCC_THREADS = "2" $env:DISTUTILS_USE_SDK = "1" $env:NVCC_PREPEND_FLAGS = "-allow-unsupported-compiler" # 5. MSVC x64 工具链 $env:PATH = "C:\Program Files\Microsoft Visual Studio\18\Insiders\VC\Tools\MSVC\14.50.35717\bin\Hostx64\x64;" + $env:PATH # 6. Windows SDK rc.exe $env:PATH = "C:\Program Files (x86)\Windows Kits\10\bin\10.0.26100.0\x64;" + $env:PATH 

十二、小结

本文记录了在 Windows 11 + RTX 3090 环境下,为 Stable Diffusion WebUI 专属 venv(Python 3.11 + PyTorch 2.7.1+cu126)从源码编译 flash-attn 2.8.0 的完整过程。

核心要点:

  1. CUDA 版本选择:flash-attn 2.8.0 在 CUDA ≥ 12.8 时会自动加入 sm_100/sm_120,必须用能支持这些架构的 CUDA 13.1 编译,而不是与 PyTorch 版本一致的 CUDA 12.6。
  2. PyTorch 版本检查 patch:用 Python 直接操作文件,将 raise RuntimeError 替换为 pass,是绕过 CUDA 版本不匹配检查最可靠的方式(避免 PowerShell 字符串编码坑)。
  3. rc.exe 问题:Windows 编译 CUDA extension 时,链接阶段依赖 Windows SDK 的 rc.exe,需手动加入 PATH,这是 Linux 编译文档中不会提到的 Windows 专属坑。
  4. --no-deps 安装:安装 wheel 时务必加 --no-deps防止 flash-attn 的 setup.py 把 torch 升级到最新版本破坏现有环境

十三、参考资料

【独家资源】Windows 本地部署微软 BitNet b1.58: Flash Attention + CUDA GPU 加速 (sm_86) + AVX2 优化 + 1.58bit 量化
手把手编译 Ollama 源码:启用 CUDA + Flash Attention 双加速(Windows + RTX 3090)
llama-cpp-python 编译 CUDA + Flash Attention 双加速 实战完整指南--Windows
Windows 强制编译 Flash Attention 完全指南:绕过 CUDA 版本地狱零、实战验证环境(已测试通过)
【高阶编译】Windows 环境下强制编译 Flash Attention:绕过 CUDA 版本不匹配高阶指南
快速查找 FlashAttention的预构建轮子(flash_attn wheels):Windows/Linux 用户快速查找神器
Windows 下 Flash Attention “the provided PTX was compiled with an unsupported toolchain” 错误全面解决笔记
Z-Image-Turbo 项目 Windows 下从 CPU-only 到完整 CUDA + Flash Attention 部署教程(2026年1月回忆版)
Flash Attention 2.8.3 在 Windows + RTX 3090 上成功编译与运行复盘笔记(2026年1月版)
【笔记】Windows 下本地编译 Flash-Attention 2.8.3 后对 RTX 3090 (sm_86) Kernel 支持的完整验证
Windows 11 下再次成功本地编译 Flash-Attention 2.8.3 并生成自定义 Wheel(RTX 3090 sm_86 专属版)
Windows 11 下 Z-Image-Turbo 完整部署与 Flash Attention 2.8.3 本地编译复盘
Windows 下成功编译 Flash Attention 2.8.3 (flash-attn /flash_attn)个人复盘记录
Flash Attention 在 Windows 上编译成功复盘笔记
Windows 系统中安装 flash_attn (flash-attn)

本文是 Windows AI 开发环境系列的一部分,更多文章见 ZEEKLOG 主页

Read more

WorkBuddy 安装使用完全指南:腾讯版“小龙虾“,一句话让 AI 替你干活

不用部署云服务器,不用写代码,下载安装即可使用。WorkBuddy 是腾讯推出的 AI 原生桌面智能体工作台,让"一句话完成复杂办公任务"真正成为现实。 一、WorkBuddy 是什么? 1.1 一句话定义 WorkBuddy 是腾讯云推出的 AI 原生桌面智能体(Desktop AI Agent)工作台,基于腾讯 CodeBuddy 同源架构构建。它不是一个只会聊天的对话框,而是一个能听懂人话、自主思考、直接操作你电脑上文件的 AI 同事。 你只需用自然语言描述需求,WorkBuddy 就能自动规划、拆解、执行多步骤任务,直接交付可验收的成果——Excel 报表、PPT 演示文稿、调研报告、数据分析图表,应有尽有。 1.2

解放双手!用Windows搭建闲鱼0成本“赚米神器”!AI客服秒回复!

解放双手!用Windows搭建闲鱼0成本“赚米神器”!AI客服秒回复!

前言 在闲鱼上,卖家每天都要面对大量的私信和订单,如果手动回复,既费时间又容易出错。想象一下,如果有一套 AI 自动回复系统,能够帮你 自动处理买家消息、快速响应订单,你只需要动动手指,就能轻松管理闲鱼店铺,该有多爽!更棒的是,这套系统 完全零成本、无需服务器,只要一台 Windows 电脑,就能快速部署运行。本文将 手把手教你在 Windows 上搭建闲鱼 AI 自动回复系统,让你 轻松解放双手、提高效率,即刻开始自动化管理闲鱼店铺吧! 1 闲鱼自动回复系统介绍 闲鱼自动回复管理系统 是一个基于 Docker 部署的自动化工具,能够帮助闲鱼卖家实现消息的智能化回复和订单管理,大幅度减少手动操作的工作量。 核心功能说明自动化消息回复对闲鱼买家的消息进行自动回复,支持关键词触发和 AI 智能对话。可集成大语言模型(如通义千问)实现自然语言交流。多账号管理支持添加和管理多个闲鱼账号。账号间数据相互隔离,

OpenClaw WebSocket Channel开发实战:从零打造自定义 AI 通信通道

OpenClaw WebSocket Channel开发实战:从零打造自定义 AI 通信通道

🎯 项目背景 为什么做这个项目? 最近 OpenClaw 特别火🔥,这是一个强大的个人 AI 助手网关,支持接入 WhatsApp、Telegram、Discord 等 15+ 个消息平台。作为一个技术爱好者,我决定深入学习一下它的架构设计。 学习目标: * ✅ 理解多通道 AI 网关的架构模式 * ✅ 掌握 OpenClaw 插件化开发技能 * ✅ 实践 WebSocket 实时双向通信 * ✅ 为社区贡献一个实用的教学案例 项目定位:这不是一个生产级项目,而是一个学习性质的教学案例,帮助其他开发者快速上手 OpenClaw 插件开发。 技术栈 前端层:Vue 3 + WebSocket ↓ 服务端:Python + aiohttp + uv ↓ 通道层:Node.js + ws + OpenClaw Plugin SDK

从Copilot到Agentic:快手如何重构“人×AI×流程“研发铁三角

从Copilot到Agentic:快手如何重构“人×AI×流程“研发铁三角

编者按 一年前,行业热衷于追问“从Copilot到Coding Agent,我们离AI自主开发还有多远”;一年后,快手用万人研发组织的真实实践,给出了一个冷静而有力的回答:组织级提效的胜负手,从来不在AI是否“自主”,而在人、AI、流程三者能否完成范式级重构。 当AI代码生成率突破40%,需求交付周期却纹丝不动——这一反直觉现象戳破了“工具幻觉”的泡沫。快手的破局之道,并非等待Agent进化到完全自主,而是主动将AI从“嵌入流程的工具”升维为“重写流程的要素”,通过L1-L3分级交付体系与端到端效能度量,让个人提效真正传导至组织效能。53%的需求交付周期压缩、38%的人均交付需求增长,这些来自生产环境的数据,为行业提供了一份稀缺的规模化落地参照。 这不仅是一次技术演进,更是一场组织能力的“压力测试”:AI不会自动修复流程断点,它只会将隐性问题放大。真正的智能化转型,始于承认“人仍是流程的锚点”,终于实现“人×AI×流程”的乘数效应。 文章概要 本文基于快手技术团队首次系统披露的AI研发范式升级实践「快手万人组织AI研发范式