Windows 环境下 llama.cpp 编译与 Qwen 模型本地部署
在大模型落地场景中,本地轻量化部署因低延迟、高隐私性、无需依赖云端算力等优势,成为开发者与 AI 爱好者的热门需求。本文聚焦 Windows 10/11(64 位)环境,详细拆解 llama.cpp 工具的编译流程(支持 CPU/GPU 双模式),并指导如何通过 ModelScope 下载 GGUF 格式的 Qwen-7B-Chat 模型,最终实现模型本地启动与 API 服务搭建。
1. 准备编译环境
首先,以管理员身份打开 PowerShell 或 CMD,克隆 llama.cpp 源码:
git clone https://github.com/ggml-org/llama.cpp
mkdir build
cd build
2. 配置与编译
仅 CPU 模式
如果不需要 GPU 加速,使用 Visual Studio 进行基础编译:
cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CURL=OFF
cmake --build . --config Release
GPU 加速模式
若已安装 CUDA Toolkit,可开启 GPU 支持以提升推理速度:
cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CUDA=ON
cmake --build . --config Release
注意:Visual Studio 版本建议为 2022 (VS 17),旧版本可能缺少必要的 C++ 标准库支持。
3. 获取模型文件
通过 ModelScope 下载 GGUF 格式的 Qwen 模型(以 7B 为例)。确保已安装 modelscope 库:
pip install modelscope
modelscope download --model Xorbits/Qwen-7B-Chat-GGUF
下载后的模型通常保存在 \modelscope\hub\models\Xorbits 目录下,请根据实际路径调整后续命令中的 -m 参数。
4. 启动 API 服务
进入编译生成的 bin\Release 目录,运行 llama-server.exe 启动 HTTP 服务。这里统一使用 OpenAI 兼容端口 11433,以便与后续 Python 脚本对接。
CPU 版启动
llama-server.exe -m qwen.gguf --host 127.0.0.1 --port 11433 -c 4096
GPU 加速版启动
llama-server.exe -m qwen-7b-chat.Q4_0.gguf -c 4096 --n-gpu-layers -1
服务启动后默认监听 http://localhost:11433。
5. 接口测试与调用
基础非流式调用
使用 curl 快速验证服务连通性:
curl http://localhost:11433/completion -H "Content-Type: application/json" -d '{ "prompt": "你好,介绍一下通义千问", "temperature": 0.7, "max_tokens": 512 }'

