Windows 11 本地部署 Qwen3.5 量化模型实测
最近想在没有独立显卡的 Windows 11 环境下跑通 Qwen3.5 的小模型,尝试了 llama.cpp 方案。这里记录一下从下载、配置到实际测试的全过程,顺便聊聊不同量化版本的表现差异。
环境准备
首先去 GitHub 官方发布页下载 llama.cpp 的二进制文件。因为机器没有独显,直接选 CPU 版本即可。
- 下载地址:https://github.com/ggml-org/llama.cpp/releases
- 选择建议:CPU 版本的 Windows x64 包(例如 b8192 版本)
解压后放到一个固定目录,比如 D:\llama8\,后续命令里会用到这个路径。
获取模型文件
Qwen3.5 的 GGUF 格式模型主要托管在 HuggingFace 上。虽然官方推荐用 huggingface_hub 命令行下载,但在国内网络环境下经常超时失败。我试过直接用 hf download 命令,结果报连接错误。
pip install huggingface_hub hf_transfer
hf download unsloth/Qwen3.5-0.8B-GGUF --include "Qwen3.5-0.8B-Q4_K_M.gguf" --local-dir ./models
# 报错:httpcore.ConnectTimeout: [WinError 10060] ...
所以更稳妥的办法是访问镜像站手动下载。关于量化档位,Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在精度和体积之间取得了很好的平衡,精度损失几乎可以忽略,建议优先选 UD-Q4_K_XL 或 Q4_K_M。
我下载了三个版本进行测试:
Qwen3.5-0.8B.Q4_K_M.gguf(非 Unsloth 官方,但大小相近)Qwen3.5-0.8B-UD-Q4_K_XL.gguf(Unsloth 官方)Qwen3.5-2B-UD-Q4_K_XL.gguf(稍大一点的版本)
命令行调用与性能测试
准备好模型后,直接使用 llama-cli 启动交互模式。参数方面,上下文窗口设为 16384 比较稳妥。
0.8B Q4_K_M 版本
C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
加载很快,生成速度大约在 35-36 t/s。不过这个小模型对指令的理解有点吃力。比如让它翻译一段英文,它有时候会直接照抄原文,只有明确说 "translate into Chinese" 时才能正常输出。
0.8B UD-Q4_K_XL 版本
换用 Unsloth 发布的 UD-Q4_K_XL 版本,速度稍微慢一点,约 31-32 t/s。效果有明显提升,翻译任务能准确理解了,数学题也能解出来。
translate into Chinese: Acyclic conjunctive queries form the backbone... 循环有向 conjunctive queries 构成了大多数分析工作负载的核心基础...
但在处理复杂逻辑时还是会有点'幻觉',比如物理题算错了功率公式,或者连续对话时把西红柿当成杂粮(可能是受上一个红薯问题的影响)。
2B UD-Q4_K_XL 版本
升级到 2B 版本,生成速度降到 23 t/s 左右,但理解能力更强了。物理题虽然推导过程啰嗦且最后结论有误,但至少知道要套公式。历史类问题(如红薯、西红柿传入中国)回答得比较详细,不过也有重复上一题答案的情况。

