Windows 11 下配置 CUDA 版 llama.cpp 本地聊天
这套配置的目标很明确:让 llama-cli.exe 能在任意目录直接调用,同时用 CUDA 把 GGUF 模型跑起来。做法不复杂,但有几个地方容易踩坑,尤其是环境变量、CUDA 版本和模型格式这三件事。
前置准备
硬件和系统
- NVIDIA 独立显卡,建议支持 CUDA 12 或 13,算力 7.5 及以上更稳一些,像 RTX 30/40/50 系列、TITAN 都可以。
- 显存要看模型大小。20B 4/3 量化模型,16G 以上会舒服很多;7B 模型 8G 也能跑。
- 硬盘要留出模型空间,GGUF 文件通常在 3-20G 之间。
- 系统用 Windows 11 64 位,家庭版和专业版都行。
- 显卡驱动尽量用 NVIDIA 官方最新版,CUDA 兼容性会省很多事。
- CUDA 工具包要和 llama.cpp 版本对上,建议直接用 CUDA 13.1。
需要下载的东西
- CUDA 版 llama.cpp 预编译包。Windows 版本建议直接下官方发布页里的
llama-b7907-bin-win-cuda-13.1-x64.zip。 - GGUF 格式模型。llama.cpp 只认 GGUF,Hugging Face 上能找到不少,量化等级从
Q2_K到Q6_K都有,越高通常效果越好,但也越吃显存。
解压并整理目录
我更建议把 llama.cpp 放到一个固定、干净的目录里,比如 D:\llama。这样后面配 Path、写批处理都省心,路径里也别带中文和空格。
解压后,你会看到几个常用文件:llama-cli.exe、ggml-cuda.dll、llama-server.exe 等。
文件夹名称也尽量简单,别给自己后面调用时添麻烦。
配置系统环境变量
这一步做完,llama-cli.exe 就能像系统命令一样直接调用,不用每次都切到 D:\llama。
打开环境变量窗口
- 按
Win + R,输入sysdm.cpl,回车。 - 切到「高级」选项卡,点右下角的「环境变量」。
把 llama.cpp 目录加到 Path
- 在「系统变量」里找到
Path,双击打开。这里要改的是系统变量,不是用户变量。 - 点「新建」,填入
D:\llama。 - 把这条路径往上挪一挪,然后一路点「确定」保存。
检查是否生效
环境变量改完后,必须重启已经打开的 CMD 或 PowerShell 窗口,必要时直接重启电脑。我一般会直接重开,省得排查半天发现只是窗口没刷新。
重启后打开任意终端,执行:
where.exe llama-cli
如果输出里有 D:\llama\llama-cli.exe,说明 Path 已经生效。
再执行一次:
llama-cli.exe
如果看到 error: --model is required,同时终端里出现 CUDA 设备信息,说明程序已经能正常找到并调用 GPU。
ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes load_backend: loaded CUDA backend from D:\llama\ggml-cuda.dll


