Windows 11 本地部署 Qwen3.5 量化模型实测
环境准备
首先获取 llama.cpp 的二进制文件。访问官方发布页面,根据系统架构选择合适的版本。由于本机没有独立显卡,我们直接使用 CPU 版本。
将压缩包解压到工作目录即可开始使用。
模型下载与选择
关于 Qwen3.5 的 GGUF 模型,建议优先选择 UD-Q4_K_XL 或 Q4_K_M 规格。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在帕累托前沿上表现优异,精度损失几乎可以忽略不计。
原生 huggingface_hub 命令行方式偶尔会因网络问题导致连接超时。如果遇到这种情况,可以通过镜像站手工查找文件,使用 wget 分别下载所需版本。
实测过程
0.8B Q4_K_M 版本
启动命令如下:
llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
加载后可以看到 RPC 和 CPU 后端已成功初始化。测试英译中功能时,模型起初倾向于直接抄录英文原文,直到明确指令为 translate into Chinese 后才给出正确翻译。该版本生成速度约为 36 t/s。
0.8B UD-Q4_K_XL 版本
切换至 UD-Q4_K_XL 量化模型后,翻译效果有明显提升,能够准确处理学术文本中的专业术语。数学解题部分也能给出完整的推导步骤。例如解方程 x^2-x-20=0,模型能正确使用求根公式法得出 x1=5, x2=-4。生成速度稳定在 32 t/s 左右。
2B UD-Q4_K_XL 版本
增大模型规模后,理解能力更加稳健,但推理速度降至 23 t/s 左右。在测试物理题瞬时功率计算时,模型虽然尝试进行推导,但最终结论出现偏差,给出了错误的 P = mv^3/4x,而正确答案应为 P = Fv。相比之下,云端版本的回答更为准确。
总结
本地部署 Qwen3.5 小模型体验良好,推理速度基本满足日常交互需求。但在处理复杂逻辑推理和特定学科问题时,仍需注意其可能产生的幻觉。对于轻量级本地应用,量化模型是一个可行的方案。

