Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测
环境准备与模型下载
本次测试在 Windows 11 环境下进行,由于无独立显卡,选用 CPU 版本的 llama.cpp 二进制文件。
1. 获取 llama.cpp 工具
访问 GitHub 官方发布页面下载对应平台的 CPU 版本: https://github.com/ggml-org/llama.cpp/releases
解压至本地目录,例如 D:\llama8。
2. 获取量化模型
参考社区通用部署指南,建议优先选择 UD-Q4_K_XL 或 Q4_K_M 量化方案。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现优异,精度损失可忽略不计。
直接使用 huggingface_hub 命令行下载时可能遇到连接超时问题(WinError 10060),建议通过镜像站手动下载 GGUF 文件。本次测试选取了三个版本:
- Qwen3.5-0.8B.Q4_K_M.gguf (非 Unsloth 官方,但大小相近)
- Qwen3.5-0.8B-UD-Q4_K_XL.gguf (Unsloth 官方)
- Qwen3.5-2B-UD-Q4_K_XL.gguf (Unsloth 官方)
模型性能实测
使用 llama-cli 命令行工具进行测试,上下文窗口设置为 16384。
测试一:Qwen3.5-0.8B.Q4_K_M
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
结果反馈:
- 翻译能力: 初始提示词直接抄录英文原文,未执行翻译指令;修正为 "translate into Chinese" 后输出正常。
- 推理速度: Prompt 约 450 t/s,Generation 约 36 t/s。
- 内存占用: Host 约 1192 MiB。
测试二:Qwen3.5-0.8B-UD-Q4_K_XL
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384
结果反馈:
- 翻译能力: 能够准确翻译技术文档内容,如 "Acyclic conjunctive queries..."。
- 数学推理: 能完整展示求根公式法解题步骤,逻辑清晰。
- 推理速度: Generation 约 32 t/s。
- 内存占用: Host 约 1222 MiB。
测试三:Qwen3.5-2B-UD-Q4_K_XL
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384
结果反馈:
- 翻译能力: 漏译部分术语(如 "conjunctive")。
- 数学推理: 求根公式法正确,但因式分解法出现计算错误(将 x^2-x-20=0 解为 4, -5)。
- 物理题: 瞬时功率计算出现偏差,对比网页版 Qwen3.5 Plus,本地小模型在处理复杂物理推导时容易引入干扰信息。

