Windows 环境下编译与运行 llama.cpp 实战指南

在开始之前，我们需要搭建好基础的构建环境。对于大多数开发者来说，Visual Studio 是首选，因为它内置了完整的 C++ 编译器支持。安装时请务必勾选'使用 C++ 的桌面开发'工作负载，这是后续编译的基础。

接下来是 CMake，它是跨平台的构建系统生成器。下载地址直接去官网即可，安装完成后记得将路径加入环境变量，方便命令行调用。

如果你计划使用 GPU 加速推理，那么 NVIDIA CUDA Toolkit 必不可少。这一步是可选的，但强烈建议有显卡的用户装上，性能提升很明显。

另外，为了能够直接从网络拉取模型文件，我们还需要安装 curl。这里推荐使用 vcpkg 来管理依赖，比手动下载安装更省心。

git clone https://github.com/microsoft/vcpkg.git
cd vcpkg
.\bootstrap-vcpkg.bat
.\vcpkg install curl:x64-windows

安装完 curl 后，建议手动新建一个模型存放目录，例如 C:\Users\Administrator\AppData\Local\llama.cpp，这样后续加载模型时路径会更清晰。

环境就绪后，就可以动手编译了。先克隆官方仓库，然后进入项目目录。

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

关键的编译命令在这里。我们使用 CMake 指定构建参数，-B build 表示将中间文件放在 build 目录下，保持源码整洁；-DGGML_CUDA=ON 开启 CUDA 支持（前提是装好了 CUDA）；-DLLAMA_CURL=ON 则启用网络下载功能。

cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build build --config Release

这条命令会触发整个编译过程，根据机器性能可能需要几分钟。如果中途报错，通常检查 CUDA 版本是否匹配或环境变量是否生效。

编译成功后，所有的可执行文件都会生成在 build\bin\Release 文件夹里。直接进去找到 main.exe 或其他相关工具，配合你下载的模型文件即可开始体验本地大模型的能力了。

更多推荐文章