Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用
前言
在本地快速部署大模型进行离线聊天,llama.cpp 是轻量化、高性能的首选工具,尤其是 CUDA 版本能充分利用 NVIDIA 显卡的算力,大幅提升模型推理速度。本文将详细记录在 Windows 11 系统中,从环境准备、CUDA 版 llama.cpp 配置,到实现系统全局调用、快速运行 GGUF 格式模型的完整步骤。
https://github.com/ggml-org/llama.cpp
一、前置准备
1. 硬件要求
- 核心:NVIDIA 独立显卡(需支持 CUDA 12 或 13,算力 7.5 及以上,如 RTX 30/40/50 系列、TITAN 等)
- 显存:根据模型大小选择,20B 4/3 量化模型建议 16G 及以上显存,7B 模型 8G 显存即可流畅运行
- 硬盘:预留足够空间存放 GGUF 格式模型(单模型文件通常 3-20G 不等)
2. 软件要求
- 操作系统:Windows 11 64 位(专业版 / 家庭版均可)
- 显卡驱动:最新 NVIDIA 官方驱动(保证 CUDA 兼容性)
- CUDA 工具包:需与 llama.cpp 版本匹配(本文使用 CUDA 13.1,llama.cpp 为 b7907 版本)
- 注:若未安装 CUDA,可从 NVIDIA 官网 下载对应版本,默认安装即可
3. 下载必备文件
- CUDA 版 llama.cpp 预编译包:无需手动编译,直接下载官方预编译的 Windows 版本,推荐从 llama.cpp 官方发布页 下载
- GGUF 格式模型:llama.cpp 仅支持 GGUF 格式模型,推荐从 Hugging Face、TheBloke 等仓库下载
- 注:选择模型时,优先匹配自身显存大小,量化等级(Q2_K-Q6_K)越高,效果越好但显存占用越大
二、解压 llama.cpp 并整理目录
为了方便管理和后续全局调用,建议将 llama.cpp 解压到固定目录,避免路径含中文、空格。
- 解压下载的
llama-b7907-bin-win-cuda-13.1-x64.zip到自定义目录,本文选择D:\llama - 解压后目录包含核心文件:
llama-cli.exe(命令行聊天主程序)、ggml-cuda.dll(CUDA 加速核心库)、llama-server.exe(API 服务程序)等 - 重命名文件夹为极简的名称(避免过多占用系统环境变量的字符数量)
三、配置系统环境变量,实现全局调用
这是实现「任意目录随时调用 llama-cli.exe」的关键步骤,配置后无需切换到 D:\llama 目录,在 CMD/PowerShell 任意路径下都能直接运行命令。
步骤 1:打开环境变量配置界面
- 按下
Win + R,输入sysdm.cpl,回车打开「系统属性」窗口 - 切换到「高级」选项卡,点击右下角「环境变量」按钮
步骤 2:添加 llama.cpp 目录到系统 Path
- 在「系统变量」列表中,找到并双击
Path变量(系统变量,不是用户变量)


