Windows 11 下配置 CUDA 版 llama.cpp 本地聊天

这套配置的目标很明确：让 llama-cli.exe 能在任意目录直接调用，同时用 CUDA 把 GGUF 模型跑起来。做法不复杂，但有几个地方容易踩坑，尤其是环境变量、CUDA 版本和模型格式这三件事。

前置准备

硬件和系统

NVIDIA 独立显卡，建议支持 CUDA 12 或 13，算力 7.5 及以上更稳一些，像 RTX 30/40/50 系列、TITAN 都可以。
显存要看模型大小。20B 4/3 量化模型，16G 以上会舒服很多；7B 模型 8G 也能跑。
硬盘要留出模型空间，GGUF 文件通常在 3-20G 之间。
系统用 Windows 11 64 位，家庭版和专业版都行。
显卡驱动尽量用 NVIDIA 官方最新版，CUDA 兼容性会省很多事。
CUDA 工具包要和 llama.cpp 版本对上，建议直接用 CUDA 13.1。

需要下载的东西

CUDA 版 llama.cpp 预编译包。Windows 版本建议直接下官方发布页里的 llama-b7907-bin-win-cuda-13.1-x64.zip。
GGUF 格式模型。llama.cpp 只认 GGUF，Hugging Face 上能找到不少，量化等级从 Q2_K 到 Q6_K 都有，越高通常效果越好，但也越吃显存。

解压并整理目录

我更建议把 llama.cpp 放到一个固定、干净的目录里，比如 D:\llama。这样后面配 Path、写批处理都省心，路径里也别带中文和空格。

解压后，你会看到几个常用文件：llama-cli.exe、ggml-cuda.dll、llama-server.exe 等。

文件夹名称也尽量简单，别给自己后面调用时添麻烦。

配置系统环境变量

这一步做完，llama-cli.exe 就能像系统命令一样直接调用，不用每次都切到 D:\llama。

打开环境变量窗口

按 Win + R，输入 sysdm.cpl，回车。
切到「高级」选项卡，点右下角的「环境变量」。

把 llama.cpp 目录加到 Path

在「系统变量」里找到 Path，双击打开。这里要改的是系统变量，不是用户变量。
点「新建」，填入 D:\llama。
把这条路径往上挪一挪，然后一路点「确定」保存。

检查是否生效

环境变量改完后，必须重启已经打开的 CMD 或 PowerShell 窗口，必要时直接重启电脑。我一般会直接重开，省得排查半天发现只是窗口没刷新。

重启后打开任意终端，执行：

where.exe llama-cli

如果输出里有 D:\llama\llama-cli.exe，说明 Path 已经生效。

再执行一次：

llama-cli.exe

如果看到 error: --model is required，同时终端里出现 CUDA 设备信息，说明程序已经能正常找到并调用 GPU。

ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes load_backend: loaded CUDA backend from D:\llama\ggml-cuda.dll

Windows 11 下配置 CUDA 版 llama.cpp 本地聊天