Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问 GitHub 发布页选择适合自己平台的 CPU 版本。

解压至工作目录，例如 ./llama8。

2. 下载量化模型

参考社区指南进行模型下载。建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA，精度损失可以忽略不计。

HuggingFace 命令行下载偶发连接超时，改用镜像站手动下载 GGUF 文件：

Qwen3.5-0.8B.Q4_K_M.gguf
Qwen3.5-0.8B-UD-Q4_K_XL.gguf
Qwen3.5-2B-UD-Q4_K_XL.gguf

3. 模型测试

使用命令行格式进行测试，参数 --ctx-size 16384。

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

> translate into Chinese: No Thinking Content in History...
无思考内容的历史：在多轮对话中，历史模型的输出应仅包含最终输出部分...
[ Prompt: 437.5 t/s | Generation: 35.7 t/s ]

该模型未理解英译中的意思，直接抄录英文原文。修正指令后生成速度约 36 t/s。

3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

> translate into Chinese: Acyclic conjunctive queries form the backbone...
循环有向 conjunctive queries 构成了大多数分析工作负载的核心基础...
[ Prompt: 343.5 t/s | Generation: 31.6 t/s ]

> 用求根公式法解方程 x^2 - x - 20 = 0
根据题目要求，使用求根公式法解方程的步骤如下：
#### 1. 整理方程
将方程左边整理为标准形式 ax^2 + bx + c = 0...
#### 5. 结论
原方程的解为：x1 = 5, x2 = -4
[ Prompt: 302.9 t/s | Generation: 31.0 t/s ]

conjunctive queries 没有翻译出来。生成速度约 32 t/s。数学题回答正确。

3.3 第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

> translate into Chinese: Acyclic conjunctive queries form the backbone...
循环查询构成了大多数分析工作负载的核心...
[ Prompt: 199.7 t/s | Generation: 24.0 t/s ]

> 一物体静止在水平面上... 求此时力 F 的瞬时功率
要计算力 F 的瞬时功率，可以使用以下两种方法：
#### 方法一：利用定义 P = F ⋅ v
... P = m v^3 / 2x
#### 方法二：利用功能关系
... P = m v^3 / 4x
**结果：** 力 F 的瞬时功率为：P = m v^3 / 4x
[ Prompt: 203.0 t/s | Generation: 23.4 t/s ]

conjunctive queries 漏译了 conjunctive。物理题做错了。其实第一句就是正确答案，后来越说越错，用了两种方法还选了错更多的那个。比较网页版 Qwen 3.5 Plus 的回答，Plus 版本直接给出 P = Fv，指出距离 x 是干扰信息。

化学方程式的格式不错。连续对话容易错，把西红柿也说成了杂粮，抄了上一个问题的答案。生成速度约 23 t/s。

4. 总结

速度对比：0.8B Q4_K_M (36 t/s) > 0.8B UD-Q4_K_XL (32 t/s) > 2B UD-Q4_K_XL (23 t/s)。

Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型