Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 Qwen3.5 量化模型实测

最近想在没有独立显卡的 Windows 11 环境下跑通 Qwen3.5 的小模型，尝试了 llama.cpp 方案。这里记录一下从下载、配置到实际测试的全过程，顺便聊聊不同量化版本的表现差异。

环境准备

首先去 GitHub 官方发布页下载 llama.cpp 的二进制文件。因为机器没有独显，直接选 CPU 版本即可。

下载地址：https://github.com/ggml-org/llama.cpp/releases
选择建议：CPU 版本的 Windows x64 包（例如 b8192 版本）

解压后放到一个固定目录，比如 D:\llama8\，后续命令里会用到这个路径。

获取模型文件

Qwen3.5 的 GGUF 格式模型主要托管在 HuggingFace 上。虽然官方推荐用 huggingface_hub 命令行下载，但在国内网络环境下经常超时失败。我试过直接用 hf download 命令，结果报连接错误。

pip install huggingface_hub hf_transfer
hf download unsloth/Qwen3.5-0.8B-GGUF --include "Qwen3.5-0.8B-Q4_K_M.gguf" --local-dir ./models
# 报错：httpcore.ConnectTimeout: [WinError 10060] ...

所以更稳妥的办法是访问镜像站手动下载。关于量化档位，Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在精度和体积之间取得了很好的平衡，精度损失几乎可以忽略，建议优先选 UD-Q4_K_XL 或 Q4_K_M。

我下载了三个版本进行测试：

Qwen3.5-0.8B.Q4_K_M.gguf (非 Unsloth 官方，但大小相近)
Qwen3.5-0.8B-UD-Q4_K_XL.gguf (Unsloth 官方)
Qwen3.5-2B-UD-Q4_K_XL.gguf (稍大一点的版本)

命令行调用与性能测试

准备好模型后，直接使用 llama-cli 启动交互模式。参数方面，上下文窗口设为 16384 比较稳妥。

0.8B Q4_K_M 版本

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

加载很快，生成速度大约在 35-36 t/s。不过这个小模型对指令的理解有点吃力。比如让它翻译一段英文，它有时候会直接照抄原文，只有明确说 "translate into Chinese" 时才能正常输出。

0.8B UD-Q4_K_XL 版本

换用 Unsloth 发布的 UD-Q4_K_XL 版本，速度稍微慢一点，约 31-32 t/s。效果有明显提升，翻译任务能准确理解了，数学题也能解出来。

translate into Chinese: Acyclic conjunctive queries form the backbone... 循环有向 conjunctive queries 构成了大多数分析工作负载的核心基础...

但在处理复杂逻辑时还是会有点'幻觉'，比如物理题算错了功率公式，或者连续对话时把西红柿当成杂粮（可能是受上一个红薯问题的影响）。

2B UD-Q4_K_XL 版本

升级到 2B 版本，生成速度降到 23 t/s 左右，但理解能力更强了。物理题虽然推导过程啰嗦且最后结论有误，但至少知道要套公式。历史类问题（如红薯、西红柿传入中国）回答得比较详细，不过也有重复上一题答案的情况。

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 Qwen3.5 量化模型实测

环境准备

获取模型文件

命令行调用与性能测试

0.8B Q4_K_M 版本

0.8B UD-Q4_K_XL 版本

2B UD-Q4_K_XL 版本

更多推荐文章

相关免费在线工具

总结与建议

更多推荐文章

相关免费在线工具

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 Qwen3.5 量化模型实测

环境准备

获取模型文件

命令行调用与性能测试

0.8B Q4_K_M 版本

0.8B UD-Q4_K_XL 版本

2B UD-Q4_K_XL 版本

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具