Windows 11 环境下使用 llama.cpp 测试 Qwen3.5 量化模型

Windows 11 环境下使用 llama.cpp 命令行工具对 Qwen3.5 系列量化模型进行本地推理测试。通过下载 CPU 版本的 llama.cpp 二进制文件及不同规格的 GGUF 模型（0.8B 与 2B），对比了 Q4_K_M 与 UD-Q4_K_XL 量化方案的性能与效果。测试涵盖翻译、数学计算及物理问题解答等场景，结果显示小模型生成速度较快但存在逻辑错误，较大模型表现更稳定但仍偶有偏差。文中记录了具体的命令行参数配置、内存占用情况及部分推理失败案例，为本地部署提供实践参考。

RefactorPro发布于 2026/3/300 浏览

Windows 11 环境下使用 llama.cpp 测试 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问官方发布页面： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于没有独立显卡，选择 CPU 版本。

下载地址示例： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到 D:\llama8\ 目录。

2. 下载量化模型

参考社区指南，建议闭眼选 UD-Q4_K_M 或 Q4_K_XL。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA（State of the Art），精度损失可以忽略不计。

尝试通过 huggingface_hub 命令行方式失败，出现连接超时错误。因此通过镜像站手工查找文件，使用 wget 分别下载了以下版本：

Qwen3.5-0.8B.Q4_K_M.gguf (非 Unsloth 官方发布)
Qwen3.5-0.8B-UD-Q4_K_XL.gguf
Qwen3.5-2B-UD-Q4_K_XL.gguf

相关页面有具体调用方法的说明，为简单起见，使用命令行格式进行测试。

2.1 第一个模型测试 (0.8B Q4_K_M)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

测试结果：

翻译任务：未理解英译中指令，直接抄录英文原文；修正指令后正常输出。
生成速度：约 36 t/s。
内存占用：Host 1192 MiB。

2.2 第二个模型测试 (0.8B UD-Q4_K_XL)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务："conjunctive queries" 漏译。
数学计算：求根公式法解方程正确，因式分解法结果正确。
生成速度：约 32 t/s。
内存占用：Host 1222 MiB。

2.3 第三个模型测试 (2B UD-Q4_K_XL)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务："conjunctive queries" 仍漏译 "conjunctive"。
物理题：计算瞬时功率时，推导过程出现错误，最终答案与网页版对比有误。题目中距离 x 为干扰信息，应直接使用 P=Fv。
化学方程式：格式正确。
连续对话：容易出错，如将西红柿误说成杂粮，重复上一个问题的答案。
生成速度：约 23 t/s。
内存占用：Host 1975 MiB。

Windows 11 环境下使用 llama.cpp 测试 Qwen3.5 量化模型