Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用
一、前置准备
1. 硬件要求
- 核心:NVIDIA 独立显卡(需支持 CUDA 12 或 13,算力 7.5 及以上,如 RTX 30/40/50 系列、TITAN 等)
- 显存:根据模型大小选择,20B 4/3 量化模型建议 16G 及以上显存,7B 模型 8G 显存即可流畅运行
- 硬盘:预留足够空间存放 GGUF 格式模型(单模型文件通常 3-20G 不等)
2. 软件要求
- 操作系统:Windows 11 64 位
- 显卡驱动:最新 NVIDIA 官方驱动
- CUDA 工具包:需与 llama.cpp 版本匹配(本文使用 CUDA 13.1)
- 注:若未安装 CUDA,可从 NVIDIA 官网下载对应版本
3. 下载必备文件
- CUDA 版 llama.cpp 预编译包:从官方发布页下载,推荐版本
llama-b7907-bin-win-cuda-13.1-x64.zip - GGUF 格式模型:llama.cpp 仅支持 GGUF 格式模型,推荐从 Hugging Face 仓库下载
二、解压 llama.cpp 并整理目录
为了方便管理和后续全局调用,建议将 llama.cpp 解压到固定目录,避免路径含中文、空格。
- 解压下载的压缩包到自定义目录,例如
D:\llama - 解压后目录包含核心文件:
llama-cli.exe、ggml-cuda.dll、llama-server.exe等
三、配置系统环境变量,实现全局调用
这是实现「任意目录随时调用 llama-cli.exe」的关键步骤。
步骤 1:打开环境变量配置界面
- 按下
Win + R,输入sysdm.cpl,回车打开「系统属性」窗口 - 切换到「高级」选项卡,点击右下角「环境变量」按钮
步骤 2:添加 llama.cpp 目录到系统 Path
- 在「系统变量」列表中,找到并双击
Path变量 - 点击「新建」,输入 llama.cpp 解压目录路径:
D:\llama - 依次点击「确定」保存所有设置
步骤 3:验证环境变量是否生效
关键注意:环境变量修改后,必须重启所有已打开的 CMD/PowerShell 窗口,或直接重启电脑。验证步骤:
- 重启电脑后,打开任意 CMD/PowerShell 窗口
- 输入命令
where.exe llama-cli,若输出D:\llama\llama-cli.exe,说明环境变量配置成功 - 输入
llama-cli.exe,若提示error: --model is required,同时显示 CUDA 设备信息,说明全局调用已生效
ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 3090,


