Windows 11 配置 CUDA 版 llama.cpp 实现 GGUF 模型本地聊天 | 极客日志

C++AI

Windows 11 配置 CUDA 版 llama.cpp 实现 GGUF 模型本地聊天

Windows 11 环境下配置 CUDA 版 llama.cpp 实现本地 GGUF 模型聊天的教程。内容包括硬件软件准备、环境变量配置以实现全局调用、核心运行命令及参数说明、常见问题排查及批处理脚本制作。通过该方案可利用 NVIDIA 显卡加速推理，无需复杂 Python 环境即可部署离线大模型。

PhpPioneer发布于 2026/4/6更新于 2026/5/2224 浏览

Windows 11 配置 CUDA 版 llama.cpp 实现 GGUF 模型本地聊天

Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用

一、前置准备

1. 硬件要求

核心：NVIDIA 独立显卡（需支持 CUDA 12 或 13，算力 7.5 及以上，如 RTX 30/40/50 系列、TITAN 等）
显存：根据模型大小选择，20B 4/3 量化模型建议 16G 及以上显存，7B 模型 8G 显存即可流畅运行
硬盘：预留足够空间存放 GGUF 格式模型（单模型文件通常 3-20G 不等）

2. 软件要求

操作系统：Windows 11 64 位
显卡驱动：最新 NVIDIA 官方驱动
CUDA 工具包：需与 llama.cpp 版本匹配（本文使用 CUDA 13.1）
- 注：若未安装 CUDA，可从 NVIDIA 官网下载对应版本

3. 下载必备文件

CUDA 版 llama.cpp 预编译包：从官方发布页下载，推荐版本 llama-b7907-bin-win-cuda-13.1-x64.zip
GGUF 格式模型：llama.cpp 仅支持 GGUF 格式模型，推荐从 Hugging Face 仓库下载

二、解压 llama.cpp 并整理目录

为了方便管理和后续全局调用，建议将 llama.cpp 解压到固定目录，避免路径含中文、空格。

解压下载的压缩包到自定义目录，例如 D:\llama
解压后目录包含核心文件：llama-cli.exe、ggml-cuda.dll、llama-server.exe 等

三、配置系统环境变量，实现全局调用

这是实现「任意目录随时调用 llama-cli.exe」的关键步骤。

步骤 1：打开环境变量配置界面

按下 Win + R，输入 sysdm.cpl，回车打开「系统属性」窗口
切换到「高级」选项卡，点击右下角「环境变量」按钮

步骤 2：添加 llama.cpp 目录到系统 Path

在「系统变量」列表中，找到并双击 Path 变量
点击「新建」，输入 llama.cpp 解压目录路径：D:\llama
依次点击「确定」保存所有设置

步骤 3：验证环境变量是否生效

关键注意：环境变量修改后，必须重启所有已打开的 CMD/PowerShell 窗口，或直接重启电脑。验证步骤：

重启电脑后，打开任意 CMD/PowerShell 窗口
输入命令 where.exe llama-cli，若输出 D:\llama\llama-cli.exe，说明环境变量配置成功
输入 llama-cli.exe，若提示 error: --model is required，同时显示 CUDA 设备信息，说明全局调用已生效

ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 3090,

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35

@echo off
echo 正在启动 CUDA 版 llama.cpp，加载模型中...
llama-cli.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" -n 2048 --gpu-layers 35
pause

llama-server.exe -m "E:\Downloads\gpt-oss-20b-base.Q3_K_L.gguf" --gpu-layers 35 --port 8080

Windows 11 配置 CUDA 版 llama.cpp 实现 GGUF 模型本地聊天

Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用

一、前置准备

1. 硬件要求

2. 软件要求

3. 下载必备文件

二、解压 llama.cpp 并整理目录

三、配置系统环境变量，实现全局调用

步骤 1：打开环境变量配置界面

步骤 2：添加 llama.cpp 目录到系统 Path

步骤 3：验证环境变量是否生效

更多推荐文章

相关免费在线工具

四、快速运行 GGUF 模型，实现本地聊天

1. 模型存放建议

2. 核心运行命令

核心参数说明

完整运行命令

3. 运行成功验证

4. 常用交互命令

五、避坑指南

1. 「llama-cli.exe 不是内部或外部命令」

2. 输入 `.\\.llama-cli.exe` 报错，直接输入 `llama-cli.exe` 正常

3. CUDA 设备未找到，加载纯 CPU 运行

4. 模型加载失败，提示「文件格式错误」

5. 运行时显存不足，提示「out of memory」

六、进阶优化

1. 制作批处理文件，双击启动模型

2. 尝试 llama-server 开启 API 服务

七、总结

更多推荐文章

相关免费在线工具

Windows 11 配置 CUDA 版 llama.cpp 实现 GGUF 模型本地聊天

Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用

一、前置准备

1. 硬件要求

2. 软件要求

3. 下载必备文件

二、解压 llama.cpp 并整理目录

三、配置系统环境变量，实现全局调用

步骤 1：打开环境变量配置界面

步骤 2：添加 llama.cpp 目录到系统 Path

步骤 3：验证环境变量是否生效

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、快速运行 GGUF 模型，实现本地聊天

1. 模型存放建议

2. 核心运行命令

核心参数说明

完整运行命令

3. 运行成功验证

4. 常用交互命令

五、避坑指南

1. 「llama-cli.exe 不是内部或外部命令」

2. 输入 .\\.llama-cli.exe 报错，直接输入 llama-cli.exe 正常

3. CUDA 设备未找到，加载纯 CPU 运行

4. 模型加载失败，提示「文件格式错误」

5. 运行时显存不足，提示「out of memory」

六、进阶优化

1. 制作批处理文件，双击启动模型

2. 尝试 llama-server 开启 API 服务

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 输入 `.\\.llama-cli.exe` 报错，直接输入 `llama-cli.exe` 正常