Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测
在本地部署大语言模型时,llama.cpp 是一个轻量且高效的方案。本文记录在 Windows 11 环境下,利用 CPU 版本 llama.cpp 调用 Qwen3.5 系列量化模型的测试过程与结果。
环境准备
首先从官方发布页面下载适合平台的二进制文件。本次测试基于 CPU 环境,因此选用 CPU 版本。
下载地址: https://github.com/ggml-org/llama.cpp/releases
解压后存放至 D:\llama8 目录。
模型下载
Qwen3.5 的 GGUF 格式模型推荐选择 UD-Q4_K_XL 或 Q4_K_M 档位。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在精度保持上表现优异,损失可忽略不计。
由于 HuggingFace 直连可能超时,建议通过镜像站手动下载。以下是三个测试用的模型文件:
- Qwen3.5-0.8B-Q4_K_M (非 Unsloth 官方,但大小相近)
- Qwen3.5-0.8B-UD-Q4_K_XL (Unsloth 官方)
- Qwen3.5-2B-UD-Q4_K_XL (Unsloth 官方)
推理测试
1. Qwen3.5-0.8B (Q4_K_M)
启动命令:
llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
翻译任务: 输入英文段落要求翻译,模型直接复制了原文中的 "No Thinking Content in History" 提示语,未理解翻译指令。改用 "translate into Chinese" 后才正常输出。
性能: 生成速度约 36 t/s。
2. Qwen3.5-0.8B (UD-Q4_K_XL)
此版本在翻译任务上表现更好,能够准确处理专业术语(如 "conjunctive queries")。但在数学计算上开始出现幻觉。
数学题测试: 题目:用求根公式法解方程 x^2 - x - 20 = 0 模型给出了详细的步骤,包括判别式计算和因式分解,最终结果正确。但在简化回答时也能给出正确数值。
性能: 生成速度约 32 t/s。
3. Qwen3.5-2B (UD-Q4_K_XL)
增大参数量后,翻译流畅度提升,但对特定词汇(如 "conjunctive")仍有漏译情况。
物理题测试: 题目:一物体静止在水平面上,在水平恒力 F 作用下由静止开始运动,前进距离为 x 时,速度达到 v,求此时力 F 的瞬时功率。
模型尝试了两种方法推导,但最终得出的公式 P = mv³/4x 是错误的。对比网页版 Qwen3.5 Plus 的回答,正确答案应为 P = Fv(若已知 F 和 v),或者结合动能定理推导。模型在此类逻辑推理上出现了偏差,越算越错。
历史知识测试: 关于红薯和西红柿传入中国的历史,模型回答较为详尽,但存在细节混淆(如将西红柿称为杂粮、重复上一题答案等),连续对话能力有待优化。
性能: 生成速度约 23 t/s。
总结
| 模型 | 量化 | 速度 (t/s) | 翻译能力 | 逻辑推理 |
|---|---|---|---|---|
| 0.8B |

