Windows 本地编译 llama.cpp 完整流程
在本地部署大语言模型时,使用 llama.cpp 往往能带来更好的隐私控制和性能调优空间。不过,Windows 下的编译过程相比 Linux 稍微繁琐一些,主要涉及构建工具的依赖配置。下面我整理了一份经过验证的实操流程,帮你快速跑通环境。
环境准备
首先是基础开发工具链。你需要安装 Visual Studio,重点勾选 C++ 桌面开发 组件,这是后续编译的核心依赖。

接着是构建系统 CMake。去官网下载安装即可,确保添加到环境变量中以便终端调用。

可选加速与依赖
如果你希望利用显卡加速推理,或者需要命令行下载模型,还需要额外准备以下组件:
- CUDA Toolkit:用于开启 GPU 计算支持。如果只用 CPU 推理,这一步可以跳过。
- curl:用于模型文件的网络传输。推荐使用
vcpkg来管理这个依赖,避免版本冲突。
git clone https://github.com/microsoft/vcpkg.git
cd vcpkg
.ootstrap-vcpkg.bat
.
vcpkg install curl:x64-windows
另外,建议提前规划好模型存放路径,例如在用户目录下新建文件夹:
C:\Users\Administrator\AppData\Local\llama.cpp
源码获取与编译
准备好上述环境后,就可以拉取 llama.cpp 源码并进行构建了。这里的关键在于 CMake 的配置参数,它们决定了最终二进制文件的功能特性。
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build build --config Release
解释一下这几个参数的作用:
-B build:指定构建输出目录为./build,保持源码目录整洁。-DGGML_CUDA=ON:显式启用 CUDA 后端,前提是已正确安装 CUDA Toolkit。-DLLAMA_CURL=ON:启用内置的 CURL 库,方便后续直接通过命令行下载模型。
运行测试
编译成功后,生成的可执行文件位于 build\bin\Release 目录下。进入该目录,你就可以尝试加载模型进行推理了。如果遇到链接错误,通常检查 CUDA 驱动和 CMake 缓存是否匹配即可。


