Windows 11 本地部署 Qwen3.5 量化模型实测：llama.cpp 体验

Windows 11 本地部署 Qwen3.5 量化模型实测

最近想在 Windows 11 上跑一下 Qwen3.5 的量化模型，环境没有独立显卡，所以主要测试 CPU 版本。整个过程通过 llama.cpp 的二进制文件直接运行，省去了 Python 依赖的麻烦，适合快速验证效果。

首先从官方仓库下载对应平台的二进制包。我没有独显，所以选了 CPU 版本。

# 解压到指定目录，例如 D:\llama8

关于模型下载，社区通常推荐闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在帕累托前沿表现更好，精度损失几乎可以忽略。

不过直接用 HuggingFace 命令行有时候会超时，我尝试过镜像站手动下载。这里建议根据网络情况选择稳定源，分别下载了三个版本进行对比：

先试了第一个模型，指令稍微有点绕，它一开始没理解'英译中'的要求，直接抄录了原文。后来改成 translate into Chinese 才正常输出。生成速度大概在 36 t/s 左右。

> translate into Chinese: PostgreSQL is a powerful...
PostgreSQL 是一个强大的开源对象关系数据库系统...
[ Prompt: 450.5 t/s | Generation: 35.6 t/s ]

接着换了 UD-Q4_K_XL 版本，翻译质量明显提升，但数学题解法开始暴露问题。比如解方程 x²-x-20=0，它能给出步骤，但有时逻辑会飘。

升级到 2B 版本后，推理能力有肉眼可见的提升，翻译更通顺，历史背景知识也更丰富。不过生成速度降到了 23 t/s 左右，CPU 占用也更高。

但在做物理题时翻车了。题目问恒力 F 作用下物体功率，它用了两种方法推导，结果选了错的那个。网页版 Plus 的回答反而更简洁准确，直接指出 P=Fv，多余的距离 x 是干扰项。这说明小参数模型在处理复杂逻辑推理时，容易陷入'幻觉'，越说越错。

化学方程式部分格式倒是不错，电离方程式写对了。连续对话里偶尔会出现上下文混淆，比如把西红柿当成杂粮，可能是受上一个红薯问题的影响。

这次测试下来，llama.cpp 在 Windows 上的体验很流畅，无需配置复杂环境。

如果追求更好的效果，建议结合大一点参数量或者云端 API，本地部署更多是图个方便和隐私。