Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型
1. 下载 llama.cpp 二进制文件
访问 GitHub 发布页选择适合自己平台的 CPU 版本。
解压至工作目录,例如 ./llama8。
2. 下载量化模型
参考社区指南进行模型下载。建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA,精度损失可以忽略不计。
HuggingFace 命令行下载偶发连接超时,改用镜像站手动下载 GGUF 文件:
- Qwen3.5-0.8B.Q4_K_M.gguf
- Qwen3.5-0.8B-UD-Q4_K_XL.gguf
- Qwen3.5-2B-UD-Q4_K_XL.gguf
3. 模型测试
使用命令行格式进行测试,参数 --ctx-size 16384。
3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)
> translate into Chinese: No Thinking Content in History...
无思考内容的历史:在多轮对话中,历史模型的输出应仅包含最终输出部分...
[ Prompt: 437.5 t/s | Generation: 35.7 t/s ]
该模型未理解英译中的意思,直接抄录英文原文。修正指令后生成速度约 36 t/s。
3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)
> translate into Chinese: Acyclic conjunctive queries form the backbone...
循环有向 conjunctive queries 构成了大多数分析工作负载的核心基础...
[ Prompt: 343.5 t/s | Generation: 31.6 t/s ]
> 用求根公式法解方程 x^2 - x - 20 = 0
根据题目要求,使用求根公式法解方程的步骤如下:
#### 1. 整理方程
将方程左边整理为标准形式 ax^2 + bx + c = 0...
#### 5. 结论
原方程的解为:x1 = 5, x2 = -4
[ Prompt: 302.9 t/s | Generation: 31.0 t/s ]
conjunctive queries 没有翻译出来。生成速度约 32 t/s。数学题回答正确。
3.3 第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)
> translate into Chinese: Acyclic conjunctive queries form the backbone...
循环查询构成了大多数分析工作负载的核心...
[ Prompt: 199.7 t/s | Generation: 24.0 t/s ]
> 一物体静止在水平面上... 求此时力 F 的瞬时功率
要计算力 F 的瞬时功率,可以使用以下两种方法:
#### 方法一:利用定义 P = F ⋅ v
... P = m v^3 / 2x
#### 方法二:利用功能关系
... P = m v^3 / 4x
**结果:** 力 F 的瞬时功率为:P = m v^3 / 4x
[ Prompt: 203.0 t/s | Generation: 23.4 t/s ]
conjunctive queries 漏译了 conjunctive。物理题做错了。其实第一句就是正确答案,后来越说越错,用了两种方法还选了错更多的那个。比较网页版 Qwen 3.5 Plus 的回答,Plus 版本直接给出 P = Fv,指出距离 x 是干扰信息。
化学方程式的格式不错。连续对话容易错,把西红柿也说成了杂粮,抄了上一个问题的答案。生成速度约 23 t/s。
4. 总结
- 速度对比:0.8B Q4_K_M (36 t/s) > 0.8B UD-Q4_K_XL (32 t/s) > 2B UD-Q4_K_XL (23 t/s)。
- 精度表现:UD-Q4_K_XL 翻译略优于 Q4_K_M,但均存在漏译现象。

