技术复盘:llama-cpp-python CUDA 编译实战 (Windows)

技术复盘:llama-cpp-python CUDA 编译实战 (Windows)
https://github.com/abetlen/llama-cpp-python
Flash Attention 2.8.3 在 Windows + RTX 3090 上成功编译与运行复盘笔记(2026年1月版)
这份笔记不仅是技术的记录,也是我们在【Project_Singularity “奇点计划”】中攻克首个重大壁垒的战勋。

我们在极其复杂的“未来版本环境”(VS 2026 Preview + CUDA 13.1)中,成功通过降级指定生成器的方法,完成了高性能本地编译。

以下是为了后继回顾方便,复盘整理的**《EPGF v7.0 核心引擎构建:llama-cpp-python CUDA 编译实战备忘录》**。



📝 技术复盘:llama-cpp-python CUDA 编译实战 (Windows)

日期:2026-01-31



项目:EPGF v7.0 "Project Singularity"



记录人:Zero & Chief Researcher:AITechLab

1. 核心背景与挑战

在 Windows 构建本地大模型推理环境时,直接使用 pip install llama-cpp-python 往往只能获得 CPU 版本(速度仅 2 token/s)。为了激活 NVIDIA 显卡的 Tensor Cores 加速,必须进行本地编译。


本次遭遇的特殊困难

系统同时安装了多个 Visual Studio 版本(2019, 2022, 2026 Preview)。CMake 默认自动调用最新的 VS 2026 Preview,但 CUDA 13.1 的编译脚本尚未适配该预览版 IDE,导致 CMake 找不到 CUDA 工具链,从而静默回退到 CPU 模式,造成“安装成功但无加速”的假象。



2. 最终成功环境 (The Gold Standard)

  • OS: Windows 11 专业工作站版
  • GPU: NVIDIA GeForce RTX 3090 (24GB, Ampere架构 sm_86)
  • CUDA Toolkit: v13.1 (系统级完整安装)
  • C++ 编译器: Visual Studio 2022 (核心关键:强制指定此版本)
  • Python: 3.11.13 (虚拟环境 .venv)
  • PyTorch: 2.5.1+cu121 (作为辅助库存在)
  • 构建工具: scikit-build-core, cmake, ninja, setuptools, wheel


3. 关键安装步骤 (SOP)

第一步:净化环境与预备

确保虚拟环境纯净,安装必要的编译辅助工具。

CMD 命令

REM 1. 激活虚拟环境 .venv\Scripts\activate REM 2. 在环境中安装 torch+cuda pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 REM 3. 清理可能存在的错误缓存 (非常重要,防止 pip 复用 CPU 版缓存) pip cache purge pip uninstall llama-cpp-python -y REM 4. 安装构建依赖 pip install scikit-build-core cmake ninja setuptools wheel 


第二步:配置“精确制导”编译参数 (核心)

这是解决多 VS 版本冲突的关键。我们通过环境变量强制 CMake 使用 VS 2022 生成器,而不是默认的 VS 2026。

CMD 命令

REM 设置 CMake 参数 REM -DGGML_CUDA=on : 开启 CUDA 加速 REM -G "Visual Studio 17 2022" : 强制指定 VS 2022 生成器 (避开 Preview 版 BUG) REM -A x64 : 强制构建 64 位版本 set CMAKE_ARGS=-DGGML_CUDA=on -G "Visual Studio 17 2022" -A x64 


第三步:执行源码编译

让 pip 下载源码并调用本地编译器构建 Wheel。

CMD 命令

REM --no-cache-dir : 禁用缓存,强制重编 REM --force-reinstall : 强制重装 REM --upgrade : 确保最新版 pip install llama-cpp-python --no-cache-dir --force-reinstall --upgrade 

预期耗时:3-10 分钟。若看到滚屏日志中出现 Successfully installed MarkupSafe-3.0.3 diskcache-5.6.3 jinja2-3.1.6 llama-cpp-python-0.3.16 numpy-2.4.2 typing-extensions-4.15.0 ... 即代表成功。




4. 成功验证指标 (Validation)

如何判断安装的是 核动力(GPU) 版还是 蒸汽机(CPU) 版?

指标 A:安装包体积

  • CPU 版本:编译出的 .whl 文件大小通常在 2 MB - 5 MB 左右。
  • GPU 版本:由于包含 CUDA Kernels,体积通常在 30 MB - 100 MB 之间(本次成功体积为 ~34 MB)。

指标 B:运行时日志

运行以下 Python 代码自测:

进入 Python 环境验证

from llama_cpp import Llama # 初始化时观察控制台输出 llm = Llama(model_path="你的模型路径.gguf", n_gpu_layers=-1, verbose=True) 

必须包含以下特征日志

  1. ggml_cuda_init: found 1 CUDA devices: (检测到显卡)
  2. Device 0: NVIDIA GeForce RTX 3090 (显卡型号正确)
  3. llm_load_tensors: offloaded 65/65 layers to GPU (层级完全卸载)

5. 总结与建议

  1. 关于 VS 版本:在 AI 编译领域,“最新”不等于“最好”。CUDA 和 PyTorch 对开发环境的适配通常滞后 6-12 个月。保持一个稳定的 Visual Studio 2022 Community 是开发者的最佳实践。
  2. 关于 CMake:当环境复杂时,不要信任自动检测。使用 -G 参数显式指定编译器是解决兼容性问题的终极手段。
  3. 关于 Jllllll:如果本地编译实在无法通过(如缺少 VS 环境),可以直接使用 pip install ... --index-url https://jllllll.github.io/llama-cpp-python-cuBLAS-wheels/whl/cu124 下载预编译包作为备选。但本地编译的版本通常针对本机硬件优化更好。

Read more

Stable-Diffusion-v1-5-archive镜像运维手册:Supervisor守护、日志排查与异常自恢复

Stable-Diffusion-v1-5-archive镜像运维手册:Supervisor守护、日志排查与异常自恢复 1. 引言:为什么你需要这份运维手册? 如果你正在使用 Stable Diffusion v1.5 Archive 这个经典的文生图模型,可能会遇到一些头疼的问题:服务突然挂了怎么办?生成的图片效果不稳定怎么排查?中文提示词总是不听话,有什么好办法? 别担心,这份手册就是为你准备的。它不仅仅是一份使用说明,更是一份运维实战指南。我们将从一个运维工程师的视角,带你深入理解这个镜像的运作机制,掌握从服务守护、日志分析到问题自愈的全套技能。无论你是个人开发者还是项目负责人,都能在这里找到让服务稳定运行的“金钥匙”。 2. 镜像核心能力与架构解析 在动手运维之前,我们先要搞清楚这个镜像到底“能做什么”以及“是怎么做的”。这就像医生看病,得先了解病人的身体结构。 2.1 核心能力:不只是文生图 Stable Diffusion v1.5 Archive 镜像的核心,是基于经典的 SD1.

昔日AI绘画框架王者Stable Diffusion WebUI,已死

昔日AI绘画框架王者Stable Diffusion WebUI,已死

写在前面 【WeThinkIn出品】栏目分享Rocky的认知思考与经验感悟,范围涵盖但不限于AI行业。 欢迎大家关注Rocky的公众号:WeThinkIn 欢迎大家关注Rocky的知乎:Rocky Ding AIGC算法工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~ 获取更多AI行业的前沿资讯与干货资源 AIGC时代的 《三年面试五年模拟》AI算法工程师求职面试秘籍独家资源:【三年面试五年模拟】AI算法工程师面试秘籍 Rocky最新撰写10万字Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章:深入浅出完整解析Stable Diffusion 3(SD 3)和FLUX.1系列核心基础知识 AIGC算法岗/开发岗面试面经交流社群(涵盖AI绘画、AI视频、大模型、AI多模态、数字人等AIGC面试干货资源)欢迎大家加入:https://t.zsxq.com/33pJ0 大家好,我是Rocky。 “还记得我们第一次打开Stable Diffusion WebUI,用上第

别再搞混了!Copilot Chat 和 Microsoft 365 Copilot 详细对比

虽然名字听起来相似 —— Microsoft 365 Copilot 和 Microsoft 365 Copilot Chat —— 但它们在多个方面存在重要区别。更关键的是,它们是相辅相成、缺一不可的。 📌 什么是 Microsoft 365 Copilot Chat? Microsoft 365 Copilot Chat(简称 Copilot Chat),主要基于网页内容生成回答。 而 Microsoft 365 Copilot 则不仅基于网页内容,还结合了用户自身的数据(如邮件、会议、文件等)。 自 2025年1月15日 起,Copilot Chat 已对所有组织全面开放。 即使是订阅了 Microsoft 365 Business Basic 的客户,也能安全地使用 Copilot Chat。

彻底关闭Win10中烦人的365 Copilot弹窗的6种方法

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 点击'项目生成'按钮,等待项目生成完整后预览效果 输入框输入如下内容 帮我开发一个Windows系统优化小工具,用于帮助普通用户一键禁用各类系统弹窗和推送功能。系统交互细节:1.提供常见弹窗类型选择 2.显示当前系统状态 3.一键禁用功能 4.支持恢复默认设置。注意事项:需要管理员权限运行 最近很多Win10用户在系统升级后都遇到了Microsoft 365 Copilot频繁弹窗的问题,这个功能虽然智能,但频繁的打扰确实影响工作效率。经过实测,我总结了6种有效的关闭方法,从简单隐藏到彻底禁用一应俱全。 1. 任务栏临时隐藏是最简单的解决方案,只需右键任务栏取消勾选相关选项。但这个方法只是隐藏入口,Copilot功能仍在后台运行。 2. 组策略彻底禁用是最推荐的方式,通过系统内置的组策略编辑器可以完全关闭Copilot。操作时需要管理员权限,设置完成后需要重启生效。这个方法禁用后连快捷键都会失效,