Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试
环境准备
下载 llama.cpp 二进制文件。
访问官方发布页面: https://github.com/ggml-org/llama.cpp/releases
选择适合自己平台的版本。本文测试环境无独立显卡,选择 CPU 版本。
解压到本地目录,例如 D:\llama8\。
模型下载
参考社区部署指南,建议闭眼选 UD-Q4_K_M 或 Q4_K_XL。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现优异,精度损失可以忽略不计。
由于直接下载可能遇到连接超时问题,可使用镜像站手工查找文件,用 wget 分别下载不同版本:
- Qwen3.5-0.8B (Q4_K_M)
- Qwen3.5-0.8B (UD-Q4_K_XL)
- Qwen3.5-2B (UD-Q4_K_XL)
命令行测试
1. Qwen3.5-0.8B (Q4_K_M)
llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
测试结果:
- 翻译任务: 模型未能理解英译中指令,直接抄录英文原文。修正指令后生成正常。
- 速度: 约 36 t/s。
- 内存: Host 总占用约 1192 MiB。
2. Qwen3.5-0.8B (UD-Q4_K_XL)
llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384
测试结果:
- 翻译任务: 能够准确翻译技术文档内容(如 Yannakakis 算法相关描述)。
- 数学计算: 能正确解一元二次方程 $x^2 - x - 20 = 0$,给出步骤和结果。
- 速度: 约 32 t/s。
- 内存: Host 总占用约 1222 MiB。
3. Qwen3.5-2B (UD-Q4_K_XL)
llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384
测试结果:
- 翻译任务: 漏译部分专业术语(如 conjunctive queries)。
- 数学计算: 能解方程,但在因式分解法中出现错误(将根算错为 4, -5)。
- 物理题: 计算瞬时功率时出现逻辑错误,最终公式推导有误。对比网页版大模型回答,小模型在复杂推理上存在明显短板。
- 连续对话: 容易出错,例如将西红柿误称为杂粮,或重复上一问题的答案。
- 速度: 约 23 t/s。
- 内存: Host 总占用约 1975 MiB。
总结
在 Windows 11 上使用 运行 Qwen3.5 量化模型体验良好。0.8B 模型速度较快(30+ t/s),适合简单任务;2B 模型推理能力更强但速度下降至 20+ t/s。需注意小模型在处理复杂逻辑、连续对话及特定领域知识时可能存在幻觉或计算错误,生产环境需谨慎评估。

