环境准备
在 Windows 上跑通 llama.cpp,核心在于构建环境的配置。首先确保安装了 Visual Studio 的 C++ 桌面开发组件,这是编译的基础。

接着安装 CMake,用于管理构建过程。

GPU 加速与依赖
如果希望利用显卡加速推理,需要安装 CUDA Toolkit。这一步是可选的,但能显著提升性能。

此外,为了支持模型文件的在线下载,建议通过 vcpkg 安装 curl 库。这比直接下载 DLL 更稳妥。
git clone https://github.com/microsoft/vcpkg.git
cd vcpkg
.\bootstrap-vcpkg.bat
.\vcpkg install curl:x64-windows
同时,记得规划好模型存储路径,例如在用户目录下创建专用文件夹。
编译与运行
获取源码后,进入项目目录进行构建。这里的关键是 CMake 的参数配置,特别是开启 CUDA 支持和 CURL 支持。
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build build --config Release
参数说明:
-B build:将编译产物输出到 build 目录,保持源码整洁。-DGGML_CUDA=ON:启用 GPU 计算后端,需提前安装 CUDA。-DLLAMA_CURL=ON:启用网络下载功能,配合上述 curl 库使用。
编译完成后,生成的可执行文件位于 build\bin\Release 目录,即可开始测试本地大模型推理。


