Windows 11 配置 CUDA 版 llama.cpp 实现 GGUF 模型本地聊天
Windows 11 环境下配置 CUDA 版 llama.cpp 实现本地 GGUF 模型聊天的教程。内容包括硬件软件准备、环境变量配置以实现全局调用、核心运行命令及参数说明、常见问题排查及批处理脚本制作。通过该方案可利用 NVIDIA 显卡加速推理,无需复杂 Python 环境即可部署离线大模型。

Windows 11 环境下配置 CUDA 版 llama.cpp 实现本地 GGUF 模型聊天的教程。内容包括硬件软件准备、环境变量配置以实现全局调用、核心运行命令及参数说明、常见问题排查及批处理脚本制作。通过该方案可利用 NVIDIA 显卡加速推理,无需复杂 Python 环境即可部署离线大模型。

llama-b7907-bin-win-cuda-13.1-x64.zip为了方便管理和后续全局调用,建议将 llama.cpp 解压到固定目录,避免路径含中文、空格。
D:\llamallama-cli.exe、ggml-cuda.dll、llama-server.exe 等这是实现「任意目录随时调用 llama-cli.exe」的关键步骤。
Win + R,输入 sysdm.cpl,回车打开「系统属性」窗口Path 变量D:\llama关键注意:环境变量修改后,必须重启所有已打开的 CMD/PowerShell 窗口,或直接重启电脑。验证步骤:
where.exe llama-cli,若输出 D:\llama\llama-cli.exe,说明环境变量配置成功llama-cli.exe,若提示 error: --model is required,同时显示 CUDA 设备信息,说明全局调用已生效ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes load_backend: loaded CUDA backend from D:\llama\ggml-cuda.dll
将下载的 GGUF 格式模型文件放到易查找的目录,建议单独建文件夹管理,如 E:\Downloads\LLM_Models,避免路径含中文、空格。
环境变量生效后,在任意目录的 CMD/PowerShell 中,输入以下命令即可启动模型聊天:
-m:指定 GGUF 模型文件的完整路径(必填)-n:设置单次生成的最大令牌数(建议 2048/4096)--gpu-layers:设置加载到 GPU 显存的层数(核心!充分利用 CUDA 加速,RTX 3090 建议设 35+)--temp 0.7(生成温度)、--ctx-size 4096(模型上下文窗口)llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35
输入命令后,终端会依次显示:CUDA 设备加载 → 模型加载 → 出现 llama.cpp 标识和模型信息 → 进入聊天交互界面(> 提示符)。此时直接输入问题,回车即可得到模型的离线回复。
/exit 或按下 Ctrl+C/regen/clear/read 文本文件路径.\\.llama-cli.exe 报错,直接输入 llama-cli.exe 正常./ 是 Linux/PowerShell 中「当前目录」的标识,CMD 中环境变量生效后,直接输入可执行文件名即可llama-cli.exe 即可。nvcc -V)。--gpu-layers 设置过大--gpu-layers 参数值;关闭显卡占用高的程序。创建 .bat 批处理文件,双击即可启动聊天。
@echo off
echo 正在启动 CUDA 版 llama.cpp,加载模型中...
llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35
pause
llama-server.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" --gpu-layers 35 --port 8080
启动后,通过 http://localhost:8080 即可访问 API。
本文完成了 Windows 11 系统中 CUDA 版 llama.cpp 的全流程配置:从前置环境准备、CUDA 版预编译包解压,到系统环境变量配置实现全局调用,再到快速运行 GGUF 模型。配合 GGUF 格式的量化模型,普通 NVIDIA 显卡也能实现本地大模型部署。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online
将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML 转 Markdown在线工具,online