Windows 11 本地部署 Qwen3.5 量化模型实测
在 Windows 环境下,利用 llama.cpp 运行量化后的 LLM 是体验本地大模型的高效方案。本文记录了在无独立显卡的 Windows 11 机器上,通过 CPU 调用 Qwen3.5 不同版本量化模型的测试过程与性能表现。
环境准备
首先从官方发布页获取 llama.cpp 的二进制文件,选择适合平台的 CPU 版本(如 win-cpu-x64)。解压后建议统一存放于特定目录,例如 D:\llama8\。
模型下载
社区普遍推荐优先选择 UD-Q4_K_XL 或 Q4_K_M 量化格式。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在精度损失可忽略的前提下表现优异。
由于直接使用 HuggingFace Hub 命令行工具时可能遇到连接超时问题,建议通过镜像站手动下载 GGUF 文件。本次测试主要涉及以下三个版本:
Qwen3.5-0.8B.Q4_K_M.ggufQwen3.5-0.8B-UD-Q4_K_XL.ggufQwen3.5-2B-UD-Q4_K_XL.gguf
将模型文件放置在与 llama-cli 相同的目录下,方便调用。
命令行测试流程
使用 llama-cli 进行交互测试,设置上下文窗口为 16384 以支持多轮对话。
llama-cli -m <model_file> --ctx-size 16384
加载成功后会进入交互式模式,支持 /exit, /clear, /read 等命令。
测试结果与分析
1. Qwen3.5-0.8B (Q4_K_M)
该版本生成速度较快,约 36 t/s。但在指令遵循上存在明显短板。
- 翻译任务:当提示词为 "translate into Chinese" 时,模型有时直接忽略指令,输出英文原文。修正提示词后能正常响应。
- 数学计算:求解一元二次方程
x^2 - x - 20 = 0时,能够正确给出步骤和结果(5, -4)。 - 物理题:在处理瞬时功率计算时出现逻辑错误,推导过程混乱,最终结论与标准答案不符。
内存占用方面,Host 端约 1192 MiB,CPU_REPACK 约 181 MiB。
2. Qwen3.5-0.8B (UD-Q4_K_XL)
切换到 UD 量化版本后,生成速度约为 32 t/s,略有下降但质量提升。
- 专业术语:在翻译关于 "conjunctive queries" 的技术文档时,部分术语未能准确翻译,显示出对特定领域词汇的理解仍有限。
- 数学能力:求根公式法和因式分解法均能正确解出方程,且能根据要求仅输出结果。
3. Qwen3.5-2B (UD-Q4_K_XL)
参数量增加带来了一定的推理能力提升,但生成速度降至 23 t/s 左右。
- 翻译质量:相比 0.8B 版本,长难句的翻译流畅度有所改善,但仍存在漏译现象。
- 逻辑推理:物理题依然出错。模型在推导过程中使用了两种方法,却选择了错误的那个作为最终结论。对比网页版 Qwen3.5-Plus 的回答,本地小模型在复杂逻辑链上的稳定性仍有差距。
- 连续对话:在多轮对话中,模型容易混淆上下文。例如在回答'西红柿怎么传到中国'时,错误地沿用了上一个问题'红薯'的答案片段,将其描述为杂粮。

