Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型测试

本文记录在 Windows 11 环境下，利用 llama.cpp 调用 Qwen3.5 系列量化模型进行本地推理的测试结果。

下载 llama.cpp 二进制文件。访问官方发布页面选择适合自己平台的版本。由于没有独立显卡，选择 CPU 版本。

解压到指定目录，例如 D:\llama8\。

从 Hugging Face 或镜像站下载 GGUF 格式的量化模型。建议优先选择 UD-Q4_K_XL 或 Q4_K_M 量化方案，精度损失较小。

本次测试下载了以下三个版本：

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

测试指令与结果：

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

测试指令与结果：

学术文本翻译：能够较好理解并翻译关于 Yannakakis 算法的英文段落。
数学计算：
- 解方程 x^2-x-20=0（求根公式法）：步骤清晰，结果正确 (5, -4)。
- 解方程 x^2-x-20=0（因式分解法）：结果正确。
性能数据：Generation 速度约 32 t/s。

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

测试指令与结果：

学术文本翻译：对 conjunctive queries 等术语翻译存在遗漏。
数学计算：求解方程结果正确。
物理题解答：
- 题目：一物体静止在水平面上，在水平恒力 F 作用下由静止开始运动，前进距离为 x 时，速度达到 v，求此时力 F 的瞬时功率。
- 模型回答：给出了两种方法推导，但其中一种方法得出的结论 P = mv^3 / 4x 是错误的，正确答案应为 P = Fv 或结合动能定理推导出的 P = mv^3 / 2x（若已知 m）。模型在连续对话中出现了逻辑混乱，甚至将西红柿误称为杂粮，显示出上下文记忆和逻辑一致性有待提升。
性能数据：Generation 速度约 23 t/s。

更多推荐文章