Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

环境准备

在 Windows 11 环境下，我们使用 llama.cpp 的预编译二进制文件来运行本地大模型。由于测试机器没有独立显卡，本次选择 CPU 版本。

下载地址： https://github.com/ggml-org/llama.cpp/releases

解压后得到 llama-cli 等工具，建议存放于专用目录（如 D:\llama8）。

模型下载与准备

Qwen3.5 提供了多种量化版本（GGUF 格式）。根据社区经验，UD-Q4_K_XL 或 Q4_K_M 是精度与体积平衡较好的选择。Unsloth 官方测试显示 UD-Q4_K_XL 在帕累托前沿上表现优异，精度损失可忽略不计。

由于直接通过 HuggingFace CLI 下载可能遇到连接超时问题，建议使用镜像站手动下载。以下三个模型为本次测试对象：

Qwen3.5-0.8B.Q4_K_M.gguf (非 Unsloth 官方发布，但大小相近)
Qwen3.5-0.8B-UD-Q4_K_XL.gguf (Unsloth 官方发布)
Qwen3.5-2B-UD-Q4_K_XL.gguf (Unsloth 官方发布)

测试过程与结果

1. Qwen3.5-0.8B (Q4_K_M 量化)

启动命令示例：

llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

性能表现： 生成速度约为 36 t/s (tokens/s)。

能力评估：

翻译任务： 对简单指令理解尚可，但对特定上下文（如'无思考内容的历史'）处理较为生硬，有时直接复制原文而非翻译。
数学计算： 能够正确解一元二次方程，步骤清晰。
物理问题： 在涉及瞬时功率计算时出现偏差，未能准确识别干扰项，导致公式推导错误。

2. Qwen3.5-0.8B (UD-Q4_K_XL 量化)

性能表现： 生成速度约为 32 t/s。

能力评估：

翻译任务： 相比前一个版本，语义理解有所提升。例如将 "Acyclic conjunctive queries" 准确译为'无环连接查询'，而非错误的'循环有向'。
数学计算： 求解方程逻辑稳定，能区分不同解题方法的要求。
局限性： 连续对话中偶尔会出现幻觉，例如将西红柿误描述为杂粮，或重复上一问题的答案。

3. Qwen3.5-2B (UD-Q4_K_XL 量化)

性能表现： 生成速度约为 23 t/s。

能力评估：

翻译任务： 译文流畅度进一步提高，对长难句的处理更自然。
数学计算： 求根公式法解答正确，但在因式分解环节出现系数错误（将 x²-x-20 分解为 (x-4)(x+5)），导致结果偏差。
物理问题： 同样存在物理题解答错误的问题，且推理过程比小模型更冗长，容易引入不必要的假设。

总结

模型版本	量化方式

Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

环境准备

模型下载与准备

测试过程与结果

1. Qwen3.5-0.8B (Q4_K_M 量化)

2. Qwen3.5-0.8B (UD-Q4_K_XL 量化)

3. Qwen3.5-2B (UD-Q4_K_XL 量化)

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

0.8B	Q4_K_M	~36	基础任务可用，复杂逻辑易出错
0.8B	UD-Q4_K_XL	~32	语义理解更好，翻译质量提升
2B	UD-Q4_K_XL	~23	推理深度增加，但计算类题目仍有失误

Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

环境准备

模型下载与准备

测试过程与结果

1. Qwen3.5-0.8B (Q4_K_M 量化)

2. Qwen3.5-0.8B (UD-Q4_K_XL 量化)

3. Qwen3.5-2B (UD-Q4_K_XL 量化)

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具