Windows 11 本地部署 Qwen3.5 量化模型实测

首先获取 llama.cpp 的二进制文件。访问官方发布页面，根据系统架构选择合适的版本。由于本机没有独立显卡，我们直接使用 CPU 版本。

将压缩包解压到工作目录即可开始使用。

关于 Qwen3.5 的 GGUF 模型，建议优先选择 UD-Q4_K_XL 或 Q4_K_M 规格。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在帕累托前沿上表现优异，精度损失几乎可以忽略不计。

原生 huggingface_hub 命令行方式偶尔会因网络问题导致连接超时。如果遇到这种情况，可以通过镜像站手工查找文件，使用 wget 分别下载所需版本。

启动命令如下：

llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

加载后可以看到 RPC 和 CPU 后端已成功初始化。测试英译中功能时，模型起初倾向于直接抄录英文原文，直到明确指令为 translate into Chinese 后才给出正确翻译。该版本生成速度约为 36 t/s。

切换至 UD-Q4_K_XL 量化模型后，翻译效果有明显提升，能够准确处理学术文本中的专业术语。数学解题部分也能给出完整的推导步骤。例如解方程 x^2-x-20=0，模型能正确使用求根公式法得出 x1=5, x2=-4。生成速度稳定在 32 t/s 左右。

增大模型规模后，理解能力更加稳健，但推理速度降至 23 t/s 左右。在测试物理题瞬时功率计算时，模型虽然尝试进行推导，但最终结论出现偏差，给出了错误的 P = mv^3/4x，而正确答案应为 P = Fv。相比之下，云端版本的回答更为准确。

本地部署 Qwen3.5 小模型体验良好，推理速度基本满足日常交互需求。但在处理复杂逻辑推理和特定学科问题时，仍需注意其可能产生的幻觉。对于轻量级本地应用，量化模型是一个可行的方案。

更多推荐文章