Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试
1. 下载 llama.cpp 二进制文件
访问 GitHub 发布页: https://github.com/ggml-org/llama.cpp/releases
选择适合自己平台的版本。由于无独立显卡,选择 CPU 版本。
下载地址示例: https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip
解压至 D:\llama8\ 目录。
2. 下载量化模型
参考社区指南,建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA(State of the Art),精度损失可以忽略不计。
原教程中的 hf download 命令行方式报错(连接超时),因此通过镜像站手工查找并下载文件。
下载链接如下:
- https://hf-mirror.com/Mustafaege/Qwen3.5-0.8B-GGUF-q4_k_m/resolve/main/Qwen3.5-0.8B.Q4_K_M.gguf?download=true
- https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf?download=true
- https://hf-mirror.com/unsloth/Qwen3.5-2B-GGUF/resolve/main/Qwen3.5-2B-UD-Q4_K_XL.gguf?download=true
注:第一个模型非 Unsloth 官方发布,大小与官方版相近,作为对比保留。
3. 模型测试与结果分析
使用 llama-cli 命令行工具进行测试,参数设置 --ctx-size 16384。
3.1 模型一:Qwen3.5-0.8B.Q4_K_M.gguf
命令:
C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
测试结果:
- 翻译任务: 输入 "translate into Chinese" 时未能正确理解指令,直接抄录英文原文;修正为 "transalte into Chinese" 后输出正常。
- 生成速度: 约 36 t/s。
- 内存占用: Host 1192 MiB。

