Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型
1. 下载 llama.cpp 二进制文件
访问官方发布页面: https://github.com/ggml-org/llama.cpp/releases
选择适合自己平台的版本。由于没有独立显卡,选择 CPU 版本。 下载地址示例: https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip
解压到本地目录,例如 D:\llama8\。
2. 下载量化模型
参考社区指南,建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现优异,精度损失可以忽略不计。
原 HuggingFace 命令行方式可能因网络问题失败,可尝试使用镜像站手工查找文件,用 wget 分别下载不同版本:
-
Qwen3.5-0.8B.Q4_K_M.gguf https://hf-mirror.com/Mustafaege/Qwen3.5-0.8B-GGUF-q4_k_m/resolve/main/Qwen3.5-0.8B.Q4_K_M.gguf?download=true
-
Qwen3.5-0.8B-UD-Q4_K_XL.gguf https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf?download=true
-
Qwen3.5-2B-UD-Q4_K_XL.gguf https://hf-mirror.com/unsloth/Qwen3.5-2B-GGUF/resolve/main/Qwen3.5-2B-UD-Q4_K_XL.gguf?download=true
相关页面有具体调用方法的说明,为简单起见,使用命令行格式进行测试。
3. 模型测试
3.1 第一个模型 (0.8B Q4_K_M)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
测试结果:
- 翻译任务:直接抄录英文原文,未理解英译中意图。修正指令后正常输出。
- 生成速度:约 36 t/s。
- 内存占用:Host 1192 MiB。
3.2 第二个模型 (0.8B UD-Q4_K_XL)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

