Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型测试
本文记录在 Windows 11 环境下,利用 llama.cpp 调用 Qwen3.5 系列量化模型进行本地推理的测试结果。
1. 准备环境
下载 llama.cpp 二进制文件。访问官方发布页面选择适合自己平台的版本。由于没有独立显卡,选择 CPU 版本。
解压到指定目录,例如 D:\llama8\。
2. 下载量化模型
从 Hugging Face 或镜像站下载 GGUF 格式的量化模型。建议优先选择 UD-Q4_K_XL 或 Q4_K_M 量化方案,精度损失较小。
本次测试下载了以下三个版本:
- Qwen3.5-0.8B.Q4_K_M.gguf
- Qwen3.5-0.8B-UD-Q4_K_XL.gguf
- Qwen3.5-2B-UD-Q4_K_XL.gguf
3. 模型测试
3.1 0.8B Q4_K_M 模型
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
测试指令与结果:
- 英译中测试:直接输入英文提示词时,模型倾向于抄录原文而非翻译;修正指令为 "translate into Chinese" 后能正确输出中文。
- PostgreSQL 介绍翻译:生成速度约 36 t/s,内容准确。
- 性能数据:Prompt: ~450 t/s | Generation: ~36 t/s。
3.2 0.8B UD-Q4_K_XL 模型
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384
测试指令与结果:
- 学术文本翻译:能够较好理解并翻译关于 Yannakakis 算法的英文段落。
- 数学计算:
- 解方程 x^2-x-20=0(求根公式法):步骤清晰,结果正确 (5, -4)。
- 解方程 x^2-x-20=0(因式分解法):结果正确。
- 性能数据:Generation 速度约 32 t/s。
3.3 2B UD-Q4_K_XL 模型
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384
测试指令与结果:
- 学术文本翻译:对 conjunctive queries 等术语翻译存在遗漏。
- 数学计算:求解方程结果正确。
- 物理题解答:
- 题目:一物体静止在水平面上,在水平恒力 F 作用下由静止开始运动,前进距离为 x 时,速度达到 v,求此时力 F 的瞬时功率。
- 模型回答:给出了两种方法推导,但其中一种方法得出的结论 P = mv^3 / 4x 是错误的,正确答案应为 P = Fv 或结合动能定理推导出的 P = mv^3 / 2x(若已知 m)。模型在连续对话中出现了逻辑混乱,甚至将西红柿误称为杂粮,显示出上下文记忆和逻辑一致性有待提升。
- 性能数据:Generation 速度约 23 t/s。

