Windows 环境下编译与运行 llama.cpp 实战指南
开发环境准备
在开始之前,我们需要搭建好基础的构建环境。对于大多数开发者来说,Visual Studio 是首选,因为它内置了完整的 C++ 编译器支持。安装时请务必勾选'使用 C++ 的桌面开发'工作负载,这是后续编译的基础。
接下来是 CMake,它是跨平台的构建系统生成器。下载地址直接去官网即可,安装完成后记得将路径加入环境变量,方便命令行调用。
如果你计划使用 GPU 加速推理,那么 NVIDIA CUDA Toolkit 必不可少。这一步是可选的,但强烈建议有显卡的用户装上,性能提升很明显。
另外,为了能够直接从网络拉取模型文件,我们还需要安装 curl。这里推荐使用 vcpkg 来管理依赖,比手动下载安装更省心。
git clone https://github.com/microsoft/vcpkg.git
cd vcpkg
.\bootstrap-vcpkg.bat
.\vcpkg install curl:x64-windows
安装完 curl 后,建议手动新建一个模型存放目录,例如 C:\Users\Administrator\AppData\Local\llama.cpp,这样后续加载模型时路径会更清晰。
源码获取与构建
环境就绪后,就可以动手编译了。先克隆官方仓库,然后进入项目目录。
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
关键的编译命令在这里。我们使用 CMake 指定构建参数,-B build 表示将中间文件放在 build 目录下,保持源码整洁;-DGGML_CUDA=ON 开启 CUDA 支持(前提是装好了 CUDA);-DLLAMA_CURL=ON 则启用网络下载功能。
cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build build --config Release
这条命令会触发整个编译过程,根据机器性能可能需要几分钟。如果中途报错,通常检查 CUDA 版本是否匹配或环境变量是否生效。
启动与使用
编译成功后,所有的可执行文件都会生成在 build\bin\Release 文件夹里。直接进去找到 main.exe 或其他相关工具,配合你下载的模型文件即可开始体验本地大模型的能力了。


