Windows 11 配置 CUDA 版 llama.cpp 实现全局调用与 GGUF 本地聊天
一、前置准备
1. 硬件要求
- 核心:NVIDIA 独立显卡(需支持 CUDA 12 或 13,算力 7.5 及以上,如 RTX 30/40/50 系列、TITAN 等)
- 显存:根据模型大小选择,20B 4/3 量化模型建议 16G 及以上显存,7B 模型 8G 显存即可流畅运行
- 硬盘:预留足够空间存放 GGUF 格式模型(单模型文件通常 3-20G 不等)
2. 软件要求
- 操作系统:Windows 11 64 位(专业版 / 家庭版均可)
- 显卡驱动:最新 NVIDIA 官方驱动(保证 CUDA 兼容性)
- CUDA 工具包:需与 llama.cpp 版本匹配(建议使用 CUDA 13.1)
- 注:若未安装 CUDA,可从 NVIDIA 官网下载对应版本,默认安装即可
3. 下载必备文件
- CUDA 版 llama.cpp 预编译包:从官方发布页下载 Windows 版本,推荐
llama-b7907-bin-win-cuda-13.1-x64.zip(对应 CUDA 13.1,x64 架构) - GGUF 格式模型:llama.cpp 仅支持 GGUF 格式模型,推荐从 Hugging Face 仓库下载,优先匹配自身显存大小,量化等级(Q2_K-Q6_K)越高效果越好但显存占用越大
二、解压 llama.cpp 并整理目录
为了方便管理和后续全局调用,建议将 llama.cpp 解压到固定目录,避免路径含中文、空格。
- 解压下载的压缩包到自定义目录,本文选择
D:\llama - 解压后目录包含核心文件:
llama-cli.exe(命令行聊天主程序)、ggml-cuda.dll(CUDA 加速核心库)、llama-server.exe(API 服务程序)等 - 重命名文件夹为简洁名称,避免过多占用系统环境变量的字符数量
三、配置系统环境变量,实现全局调用
这是实现「任意目录随时调用 llama-cli.exe」的关键步骤,配置后无需切换到 D:\llama 目录,在 CMD/PowerShell 任意路径下都能直接运行命令。
步骤 1:打开环境变量配置界面
- 按下
Win + R,输入sysdm.cpl,回车打开「系统属性」窗口 - 切换到「高级」选项卡,点击右下角「环境变量」按钮
步骤 2:添加 llama.cpp 目录到系统 Path
- 在「系统变量」列表中,找到并双击
Path变量(系统变量,不是用户变量) - 点击「新建」,输入 llama.cpp 解压目录路径:
D:\llama - 点击「上移」将该路径移到靠前位置,依次点击「确定」保存所有设置
步骤 3:验证环境变量是否生效
关键注意:环境变量修改后,必须重启所有已打开的 CMD/PowerShell 窗口,或直接重启电脑。
- 重启电脑后,打开任意 CMD/PowerShell 窗口
- 输入命令
where.exe llama-cli,若输出D:\llama\llama-cli.exe,说明环境变量配置成功 - 输入
llama-cli.exe,若提示error: --model is required,同时显示 CUDA 设备信息,说明全局调用已生效


