Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试
1. 下载 llama.cpp 二进制文件
访问官方发布页面,选择适合自己平台的版本。由于没有独立显卡,本次选择 CPU 版本。 解压到指定目录。
2. 下载量化模型
从 Hugging Face 镜像站或官方仓库下载 Qwen3.5 的 GGUF 格式量化模型。建议选用 UD-Q4_K_XL 或 Q4_K_M 量化方案。 若命令行下载失败,可手动通过浏览器下载以下模型文件放入 models 目录:
- Qwen3.5-0.8B.Q4_K_M.gguf
- Qwen3.5-0.8B-UD-Q4_K_XL.gguf
- Qwen3.5-2B-UD-Q4_K_XL.gguf
3. 模型测试与结果分析
3.1 Qwen3.5-0.8B (Q4_K_M)
命令示例:
llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
生成速度约 36 t/s。 表现:翻译任务有时直接抄录原文,需调整指令;数学计算正确;物理题回答错误。
3.2 Qwen3.5-0.8B (UD-Q4_K_XL)
生成速度约 32 t/s。 表现:翻译能力有所提升,能处理复杂术语;数学计算准确;连续对话中偶尔出现逻辑混淆。
3.3 Qwen3.5-2B (UD-Q4_K_XL)
生成速度约 23 t/s。 表现:翻译质量进一步提高;数学计算准确;物理题推导过程存在错误,相比网页版 Plus 模型表现稍弱。
4. 总结
在 Windows11 环境下,利用 llama.cpp 配合 CPU 运行 Qwen3.5 量化模型是可行的。小参数模型(0.8B)推理速度快但能力有限,2B 模型在保持速度的同时提升了理解力。测试表明本地量化模型适合快速推理,但在复杂任务上仍需注意其局限性。

