Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型 | 极客日志

编程语言AI算法

Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型

综述由AI生成演示了在 Windows 11 系统上使用 llama.cpp 运行 Qwen3.5 量化模型的完整流程。内容包括下载 CPU 版 llama.cpp 工具及 GGUF 格式模型，对比 0.8B 与 2B 模型在不同量化参数下的推理速度与准确性。测试项目包括翻译、数学计算、物理题解答及常识问答，分析了小模型在逻辑推理上的局限性及性能表现。结果显示 0.8B 模型速度较快但逻辑易错，2B 模型更稳定但速度下降。

moshang发布于 2026/4/6更新于 2026/5/2128 浏览

1. 下载 llama.cpp 二进制文件

访问 https://github.com/ggml-org/llama.cpp/releases，选择适合自己平台的版本。由于没有独立显卡，选择 CPU 版本。

下载地址： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到 D:\llama8\ 目录。

2. 下载量化模型

参考社区指南，建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA（State of the Art），精度损失可以忽略不计。

原 HuggingFace 命令行方式失败，因此通过镜像站手工查找文件，用 wget 分别下载了 3 个版本：

Qwen3.5-0.8B.Q4_K_M.gguf
Qwen3.5-0.8B-UD-Q4_K_XL.gguf
Qwen3.5-2B-UD-Q4_K_XL.gguf

相关页面有具体调用方法的说明，为简单起见，使用命令行格式。

第一个模型 (Qwen3.5-0.8B.Q4_K_M)

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

输出日志显示加载成功，生成速度约 36 t/s。

测试结果：

英译中：未理解指令，直接抄录英文原文；修正指令后翻译正常。
数学题：解方程 x^2-x-20=0，结果正确。
物理题：计算瞬时功率，推导过程出现错误，最终结论与标准答案不符。

第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

生成速度约 32 t/s。

测试结果：

翻译：部分术语漏译（如 conjunctive queries）。
数学题：求解步骤详细，结果正确。
连续对话：容易出错，例如将西红柿误说成杂粮，重复上一题答案。

第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

生成速度约 23 t/s。

测试结果：

翻译：表现较好，但仍有漏译。
数学题：求解步骤清晰，结果正确。