Windows 11 配置 CUDA 版 llama.cpp 实现系统全局调用
在 Windows 11 系统下配置 CUDA 版 llama.cpp 以实现本地大模型离线聊天的全过程。内容包括硬件与软件环境准备,下载预编译包并解压至固定目录,配置系统环境变量实现全局调用,以及运行 GGUF 格式模型的核心命令与参数说明。此外,文章还提供了常见问题的避坑指南、批处理脚本制作及 API 服务开启等进阶优化方案,帮助用户快速搭建基于 NVIDIA 显卡加速的本地 LLM 环境。

在 Windows 11 系统下配置 CUDA 版 llama.cpp 以实现本地大模型离线聊天的全过程。内容包括硬件与软件环境准备,下载预编译包并解压至固定目录,配置系统环境变量实现全局调用,以及运行 GGUF 格式模型的核心命令与参数说明。此外,文章还提供了常见问题的避坑指南、批处理脚本制作及 API 服务开启等进阶优化方案,帮助用户快速搭建基于 NVIDIA 显卡加速的本地 LLM 环境。

在本地快速部署大模型进行离线聊天,llama.cpp 是轻量化、高性能的首选工具,尤其是 CUDA 版本能充分利用 NVIDIA 显卡的算力,大幅提升模型推理速度。本文将详细记录在 Windows 11 系统中,从环境准备、CUDA 版 llama.cpp 配置,到实现系统全局调用、快速运行 GGUF 格式模型的完整步骤,全程基于实际操作验证,适配 RTX 3090 等 NVIDIA 显卡。
CUDA 版 llama.cpp 预编译包:无需手动编译,直接下载官方预编译的 Windows 版本,推荐从 llama.cpp 官方发布页下载,本文使用版本为 llama-b7907-bin-win-cuda-13.1-x64.zip(对应 CUDA 13.1,x64 架构)
gpt-oss-20b-base.Q3_K_L.gguf(3 量化,兼顾性能和显存)
为了方便管理和后续全局调用,建议将 llama.cpp 解压到固定目录,避免路径含中文、空格(Windows 环境易出问题)。
llama-b7907-bin-win-cuda-13.1-x64.zip 到自定义目录,本文选择 D:\llama(核心目录,后续所有操作基于此)llama-cli.exe(命令行聊天主程序)、ggml-cuda.dll(CUDA 加速核心库)、llama-server.exe(API 服务程序)等,无需额外修改文件结构这是实现「任意目录随时调用 llama-cli.exe」的关键步骤,配置后无需切换到 D:\llama 目录,在 CMD/PowerShell 任意路径下都能直接运行命令。
Win + R,输入 sysdm.cpl,回车打开「系统属性」窗口Path 变量(系统变量,不是用户变量,保证所有用户均可调用)D:\llama(本文路径,根据自己的实际解压路径修改)关键注意:环境变量修改后,必须重启所有已打开的 CMD/PowerShell 窗口,或直接重启电脑(彻底生效,实测推荐)。验证步骤:
where.exe llama-cli,若输出 D:\llama\llama-cli.exe,说明环境变量配置成功;llama-cli.exe,若提示 error: --model is required,同时显示 CUDA 设备信息(如下),说明 CUDA 版 llama.cpp 全局调用已生效:ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes load_backend: loaded CUDA backend from D:\llama\ggml-cuda.dll
将下载的 GGUF 格式模型文件放到易查找的目录,建议单独建文件夹管理,如 E:\Downloads\LLM_Models,避免路径含中文、空格(本文测试模型路径:E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf)。
路径示例:
E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf
环境变量生效后,在任意目录的 CMD/PowerShell 中,输入以下命令即可启动模型聊天,核心参数说明 + 完整命令如下:
-m:指定 GGUF 模型文件的完整路径(必填)-n:设置单次生成的最大令牌数(建议 2048/4096,根据模型上下文调整)--gpu-layers:设置加载到 GPU 显存的层数(核心!充分利用 CUDA 加速,RTX 3090 建议设 35+,显存较小的显卡可适当降低,如 16G 显存设 20-30)--temp 0.7(生成温度,越低越严谨,越高越灵活)、--ctx-size 4096(模型上下文窗口)llama-cli.exe -m "模型文件路径" -n 2048 --gpu-layers 35
llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35
输入命令后,终端会依次显示:CUDA 设备加载 → 模型加载 → 出现 llama.cpp 标识和模型信息 → 进入聊天交互界面(> 提示符),如下即为成功:
Loading model... build : b7907-59377a6c8 model : gpt-oss-20b-base.Q3_K_L.gguf modalities : text available commands: /exit or Ctrl+C stop or exit /regen regenerate the last response /clear clear the chat history > 你是哪个模型
此时直接输入问题,回车即可得到模型的离线回复,推理速度会显示在回复下方(如 Prompt: 194.0 t/s | Generation: 203.3 t/s),CUDA 加速下速度会比纯 CPU 快 5-10 倍。
/exit 或按下 Ctrl+C/regen(对当前问题的回复不满意时使用)/clear/read 文本文件路径(让模型读取本地文本并基于此对话)本文全程基于实际操作,整理了几个关键坑点,帮你少走弯路:
.\\.llama-cli.exe 报错,直接输入 llama-cli.exe 正常./ 是 Linux/PowerShell 中「当前目录」的标识,CMD 中环境变量生效后,直接输入可执行文件名即可,无需加 ./llama-cli.exe 即可,无需加路径前缀。nvcc -V 可查看版本)。--gpu-layers 设置过大、同时运行其他占用显存的程序--gpu-layers 参数值;③ 关闭显卡占用高的程序(如原神、Pr、AE 等)。每次输入长命令太麻烦?创建 .bat 批处理文件,双击即可启动聊天,步骤如下:
run_llama.bat(后缀改为 .bat,需显示文件后缀)@echo off
echo 正在启动 CUDA 版 llama.cpp,加载模型中...
llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35
pause
D:\llama 下新建 Models 文件夹,将所有 GGUF 模型放到此处,方便管理;D:\llama\Models\xxx.gguf,避免模型路径混乱。llama.cpp 还支持开启 API 服务,让其他程序(如 Web 界面、机器人)调用本地模型,命令如下:
llama-server.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" --gpu-layers 35 --port 8080
启动后,通过 http://localhost:8080 即可访问 API,实现更灵活的二次开发。
本文完成了 Windows 11 系统中 CUDA 版 llama.cpp 的全流程配置:从前置环境准备、CUDA 版预编译包解压,到系统环境变量配置实现全局调用,再到快速运行 GGUF 模型、避坑优化,全程基于实际操作,所有命令和步骤均经过验证,RTX 3090 显卡下可流畅运行 20B 量化模型,本地离线聊天无网络依赖、速度快。
llama.cpp 的优势在于轻量化、跨平台、CUDA 加速适配友好,无需复杂的 Python 环境配置,预编译包解压即可用,配合 GGUF 格式的量化模型,普通 NVIDIA 显卡也能实现本地大模型部署。后续可尝试不同大小、不同量化等级的模型,调整 --gpu-layers、--temp 等参数,找到最适合自己硬件的配置。
至此,你已经拥有了一个可全局调用、CUDA 加速的本地大模型聊天工具,尽情探索离线大模型的乐趣吧!

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online