Windows11 使用 llama.cpp 部署 Qwen3.5 量化模型测试 | 极客日志

编程语言AI算法

Windows11 使用 llama.cpp 部署 Qwen3.5 量化模型测试

在 Windows 11 环境下使用 llama.cpp 工具部署和测试 Qwen3.5 系列量化模型（0.8B 和 2B）的过程。通过下载 CPU 版本的 llama.cpp 二进制文件及 GGUF 格式的量化模型，利用命令行进行推理测试。测试涵盖了翻译、数学计算、物理题解答及历史知识问答等场景，对比了不同量化版本（Q4_K_M 与 UD-Q4_K_XL）的性能（tokens/s）与准确率。结果显示 0.8B 模型速度较快但部分任务存在理解偏差，2B 模型表现更稳定但仍偶有错误，为本地小模型部署提供了参考数据。

念念不忘发布于 2026/4/5更新于 2026/7/2552 浏览

Windows11 本地部署 Qwen3.5 量化模型测试

1. 下载 llama.cpp 二进制文件

访问官方发布页面： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于没有独立显卡，选择 CPU 版本。下载地址示例： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到 D:\llama8 目录。

2. 下载量化模型

参考相关社区指南，建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA（State of the Art），精度损失可以忽略不计。

原命令行方式可能失败，可通过镜像站手工查找文件，用 wget 分别下载不同版本：

Qwen3.5-0.8B.Q4_K_M.gguf
Qwen3.5-0.8B-UD-Q4_K_XL.gguf
Qwen3.5-2B-UD-Q4_K_XL.gguf

3. 模型测试与性能分析

第一个模型 (Qwen3.5-0.8B.Q4_K_M)

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

测试结果：

翻译任务：直接输入英文原文未理解意图，需明确指令 "translate into Chinese"。
生成速度：约 36 t/s。
内存占用：Host 1192 MiB。

第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务：能较好处理专业术语（如 conjunctive queries）。
数学计算：求根公式法解方程 x^2 - x - 20 = 0，步骤清晰，结果正确。
生成速度：约 32 t/s。
内存占用：Host 1222 MiB。

第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务：漏译部分专有名词（conjunctive）。
数学计算：求根公式法结果正确。
物理题：存在错误推导，最终功率公式有误（应为 P=Fv，文中推导出现偏差）。