Windows 11 本地部署 Qwen3.5 量化模型实测
最近想在 Windows 11 上跑一下 Qwen3.5 的量化模型,环境没有独立显卡,所以主要测试 CPU 版本。整个过程通过 llama.cpp 的二进制文件直接运行,省去了 Python 依赖的麻烦,适合快速验证效果。
环境准备
首先从官方仓库下载对应平台的二进制包。我没有独显,所以选了 CPU 版本。
# 解压到指定目录,例如 D:\llama8
模型获取与选择
关于模型下载,社区通常推荐闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在帕累托前沿表现更好,精度损失几乎可以忽略。
不过直接用 HuggingFace 命令行有时候会超时,我尝试过镜像站手动下载。这里建议根据网络情况选择稳定源,分别下载了三个版本进行对比:
- Qwen3.5-0.8B (Q4_K_M)
- Qwen3.5-0.8B (UD-Q4_K_XL)
- Qwen3.5-2B (UD-Q4_K_XL)
实测过程
0.8B 模型测试
先试了第一个模型,指令稍微有点绕,它一开始没理解'英译中'的要求,直接抄录了原文。后来改成 translate into Chinese 才正常输出。生成速度大概在 36 t/s 左右。
> translate into Chinese: PostgreSQL is a powerful...
PostgreSQL 是一个强大的开源对象关系数据库系统...
[ Prompt: 450.5 t/s | Generation: 35.6 t/s ]
接着换了 UD-Q4_K_XL 版本,翻译质量明显提升,但数学题解法开始暴露问题。比如解方程 x²-x-20=0,它能给出步骤,但有时逻辑会飘。
2B 模型测试
升级到 2B 版本后,推理能力有肉眼可见的提升,翻译更通顺,历史背景知识也更丰富。不过生成速度降到了 23 t/s 左右,CPU 占用也更高。
但在做物理题时翻车了。题目问恒力 F 作用下物体功率,它用了两种方法推导,结果选了错的那个。网页版 Plus 的回答反而更简洁准确,直接指出 P=Fv,多余的距离 x 是干扰项。这说明小参数模型在处理复杂逻辑推理时,容易陷入'幻觉',越说越错。
化学方程式部分格式倒是不错,电离方程式写对了。连续对话里偶尔会出现上下文混淆,比如把西红柿当成杂粮,可能是受上一个红薯问题的影响。
总结
这次测试下来,llama.cpp 在 Windows 上的体验很流畅,无需配置复杂环境。
- 速度:0.8B 约 36 t/s,2B 约 23 t/s,CPU 响应尚可。
- 精度:UD-Q4_K_XL 优于 Q4_K_M,但小模型在数学、物理等强逻辑任务上仍有风险。
- 适用场景:适合本地轻量级开发、文本润色或简单问答,不建议用于对准确性要求极高的专业领域。
如果追求更好的效果,建议结合大一点参数量或者云端 API,本地部署更多是图个方便和隐私。

