Windows 11 环境下使用 llama.cpp 测试 Qwen3.5 量化模型
1. 下载 llama.cpp 二进制文件
访问官方发布页面: https://github.com/ggml-org/llama.cpp/releases
选择适合自己平台的版本。由于没有独立显卡,选择 CPU 版本。
下载地址示例: https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip
解压到 D:\llama8\ 目录。
2. 下载量化模型
参考社区指南,建议闭眼选 UD-Q4_K_M 或 Q4_K_XL。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA(State of the Art),精度损失可以忽略不计。
尝试通过 huggingface_hub 命令行方式失败,出现连接超时错误。因此通过镜像站手工查找文件,使用 wget 分别下载了以下版本:
- Qwen3.5-0.8B.Q4_K_M.gguf (非 Unsloth 官方发布)
- Qwen3.5-0.8B-UD-Q4_K_XL.gguf
- Qwen3.5-2B-UD-Q4_K_XL.gguf
相关页面有具体调用方法的说明,为简单起见,使用命令行格式进行测试。
2.1 第一个模型测试 (0.8B Q4_K_M)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
测试结果:
- 翻译任务:未理解英译中指令,直接抄录英文原文;修正指令后正常输出。
- 生成速度:约 36 t/s。
- 内存占用:Host 1192 MiB。
2.2 第二个模型测试 (0.8B UD-Q4_K_XL)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384
测试结果:
- 翻译任务:"conjunctive queries" 漏译。
- 数学计算:求根公式法解方程正确,因式分解法结果正确。
- 生成速度:约 32 t/s。
- 内存占用:Host 1222 MiB。
2.3 第三个模型测试 (2B UD-Q4_K_XL)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384
测试结果:
- 翻译任务:"conjunctive queries" 仍漏译 "conjunctive"。
- 物理题:计算瞬时功率时,推导过程出现错误,最终答案与网页版对比有误。题目中距离 x 为干扰信息,应直接使用 P=Fv。
- 化学方程式:格式正确。
- 连续对话:容易出错,如将西红柿误说成杂粮,重复上一个问题的答案。
- 生成速度:约 23 t/s。
- 内存占用:Host 1975 MiB。

