Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测

在本地部署大语言模型时，llama.cpp 是一个轻量且高效的方案。本文记录在 Windows 11 环境下，利用 CPU 版本 llama.cpp 调用 Qwen3.5 系列量化模型的测试过程与结果。

环境准备

首先从官方发布页面下载适合平台的二进制文件。本次测试基于 CPU 环境，因此选用 CPU 版本。

下载地址： https://github.com/ggml-org/llama.cpp/releases

解压后存放至 D:\llama8 目录。

模型下载

Qwen3.5 的 GGUF 格式模型推荐选择 UD-Q4_K_XL 或 Q4_K_M 档位。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在精度保持上表现优异，损失可忽略不计。

由于 HuggingFace 直连可能超时，建议通过镜像站手动下载。以下是三个测试用的模型文件：

Qwen3.5-0.8B-Q4_K_M (非 Unsloth 官方，但大小相近)
Qwen3.5-0.8B-UD-Q4_K_XL (Unsloth 官方)
Qwen3.5-2B-UD-Q4_K_XL (Unsloth 官方)

推理测试

1. Qwen3.5-0.8B (Q4_K_M)

启动命令：

llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

翻译任务： 输入英文段落要求翻译，模型直接复制了原文中的 "No Thinking Content in History" 提示语，未理解翻译指令。改用 "translate into Chinese" 后才正常输出。

性能： 生成速度约 36 t/s。

2. Qwen3.5-0.8B (UD-Q4_K_XL)

此版本在翻译任务上表现更好，能够准确处理专业术语（如 "conjunctive queries"）。但在数学计算上开始出现幻觉。

数学题测试： 题目：用求根公式法解方程 x^2 - x - 20 = 0 模型给出了详细的步骤，包括判别式计算和因式分解，最终结果正确。但在简化回答时也能给出正确数值。

性能： 生成速度约 32 t/s。

3. Qwen3.5-2B (UD-Q4_K_XL)

增大参数量后，翻译流畅度提升，但对特定词汇（如 "conjunctive"）仍有漏译情况。

物理题测试： 题目：一物体静止在水平面上，在水平恒力 F 作用下由静止开始运动，前进距离为 x 时，速度达到 v，求此时力 F 的瞬时功率。

模型尝试了两种方法推导，但最终得出的公式 P = mv³/4x 是错误的。对比网页版 Qwen3.5 Plus 的回答，正确答案应为 P = Fv（若已知 F 和 v），或者结合动能定理推导。模型在此类逻辑推理上出现了偏差，越算越错。

历史知识测试： 关于红薯和西红柿传入中国的历史，模型回答较为详尽，但存在细节混淆（如将西红柿称为杂粮、重复上一题答案等），连续对话能力有待优化。

性能： 生成速度约 23 t/s。

总结

模型	量化	速度 (t/s)	翻译能力	逻辑推理
0.8B

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测