Windows 11 配置 CUDA 版 llama.cpp 实现全局调用与 GGUF 本地聊天 | 极客日志

C++AI算法

Windows 11 配置 CUDA 版 llama.cpp 实现全局调用与 GGUF 本地聊天

Windows 11 环境下配置 CUDA 版 llama.cpp 实现本地大模型离线聊天的完整教程。涵盖硬件软件要求、预编译包解压、系统环境变量配置以实现全局调用、GGUF 模型运行命令参数说明、常见报错排查及批处理脚本优化。支持 RTX 3090 等 NVIDIA 显卡加速，无需复杂 Python 环境，适合本地部署量化模型。

不羁发布于 2026/4/5更新于 2026/5/2436 浏览

Windows 11 配置 CUDA 版 llama.cpp 实现全局调用与 GGUF 本地聊天

Windows 11 配置 CUDA 版 llama.cpp 实现全局调用与 GGUF 本地聊天

一、前置准备

1. 硬件要求

核心：NVIDIA 独立显卡（需支持 CUDA 12 或 13，算力 7.5 及以上，如 RTX 30/40/50 系列、TITAN 等）
显存：根据模型大小选择，20B 4/3 量化模型建议 16G 及以上显存，7B 模型 8G 显存即可流畅运行
硬盘：预留足够空间存放 GGUF 格式模型（单模型文件通常 3-20G 不等）

2. 软件要求

操作系统：Windows 11 64 位（专业版 / 家庭版均可）
显卡驱动：最新 NVIDIA 官方驱动（保证 CUDA 兼容性）
CUDA 工具包：需与 llama.cpp 版本匹配（建议使用 CUDA 13.1）
- 注：若未安装 CUDA，可从 NVIDIA 官网下载对应版本，默认安装即可

3. 下载必备文件

CUDA 版 llama.cpp 预编译包：从官方发布页下载 Windows 版本，推荐 llama-b7907-bin-win-cuda-13.1-x64.zip（对应 CUDA 13.1，x64 架构）
GGUF 格式模型：llama.cpp 仅支持 GGUF 格式模型，推荐从 Hugging Face 仓库下载，优先匹配自身显存大小，量化等级（Q2_K-Q6_K）越高效果越好但显存占用越大

二、解压 llama.cpp 并整理目录

为了方便管理和后续全局调用，建议将 llama.cpp 解压到固定目录，避免路径含中文、空格。

解压下载的压缩包到自定义目录，本文选择 D:\llama
解压后目录包含核心文件：llama-cli.exe（命令行聊天主程序）、ggml-cuda.dll（CUDA 加速核心库）、llama-server.exe（API 服务程序）等
重命名文件夹为简洁名称，避免过多占用系统环境变量的字符数量

三、配置系统环境变量，实现全局调用

这是实现「任意目录随时调用 llama-cli.exe」的关键步骤，配置后无需切换到 D:\llama 目录，在 CMD/PowerShell 任意路径下都能直接运行命令。

步骤 1：打开环境变量配置界面

按下 Win + R，输入 sysdm.cpl，回车打开「系统属性」窗口
切换到「高级」选项卡，点击右下角「环境变量」按钮

步骤 2：添加 llama.cpp 目录到系统 Path

在「系统变量」列表中，找到并双击 Path 变量（系统变量，不是用户变量）
点击「新建」，输入 llama.cpp 解压目录路径：D:\llama
点击「上移」将该路径移到靠前位置，依次点击「确定」保存所有设置

步骤 3：验证环境变量是否生效

关键注意：环境变量修改后，必须重启所有已打开的 CMD/PowerShell 窗口，或直接重启电脑。

重启电脑后，打开任意 CMD/PowerShell 窗口
输入命令 where.exe llama-cli，若输出 D:\llama\llama-cli.exe，说明环境变量配置成功
输入 llama-cli.exe，若提示 error: --model is required，同时显示 CUDA 设备信息，说明全局调用已生效

llama-cli.exe -m "模型文件路径" -n 2048 --gpu-layers 35

llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35

@echo off
echo 正在启动 CUDA 版 llama.cpp，加载模型中...
llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35
pause

llama-server.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" --gpu-layers 35 --port 8080