Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

环境准备

下载 llama.cpp 二进制文件。

访问官方发布页面： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。本文测试环境无独立显卡，选择 CPU 版本。

解压到本地目录，例如 D:\llama8\。

模型下载

参考社区部署指南，建议闭眼选 UD-Q4_K_M 或 Q4_K_XL。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现优异，精度损失可以忽略不计。

由于直接下载可能遇到连接超时问题，可使用镜像站手工查找文件，用 wget 分别下载不同版本：

Qwen3.5-0.8B (Q4_K_M)
Qwen3.5-0.8B (UD-Q4_K_XL)
Qwen3.5-2B (UD-Q4_K_XL)

命令行测试

1. Qwen3.5-0.8B (Q4_K_M)

llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

测试结果：

翻译任务： 模型未能理解英译中指令，直接抄录英文原文。修正指令后生成正常。
速度： 约 36 t/s。
内存： Host 总占用约 1192 MiB。

2. Qwen3.5-0.8B (UD-Q4_K_XL)

llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务： 能够准确翻译技术文档内容（如 Yannakakis 算法相关描述）。
数学计算： 能正确解一元二次方程 $x^2 - x - 20 = 0$，给出步骤和结果。
速度： 约 32 t/s。
内存： Host 总占用约 1222 MiB。

3. Qwen3.5-2B (UD-Q4_K_XL)

llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务： 漏译部分专业术语（如 conjunctive queries）。
数学计算： 能解方程，但在因式分解法中出现错误（将根算错为 4, -5）。
物理题： 计算瞬时功率时出现逻辑错误，最终公式推导有误。对比网页版大模型回答，小模型在复杂推理上存在明显短板。
连续对话： 容易出错，例如将西红柿误称为杂粮，或重复上一问题的答案。
速度： 约 23 t/s。
内存： Host 总占用约 1975 MiB。

总结

在 Windows 11 上使用运行 Qwen3.5 量化模型体验良好。0.8B 模型速度较快（30+ t/s），适合简单任务；2B 模型推理能力更强但速度下降至 20+ t/s。需注意小模型在处理复杂逻辑、连续对话及特定领域知识时可能存在幻觉或计算错误，生产环境需谨慎评估。

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

环境准备

模型下载

命令行测试

1. Qwen3.5-0.8B (Q4_K_M)

2. Qwen3.5-0.8B (UD-Q4_K_XL)

3. Qwen3.5-2B (UD-Q4_K_XL)

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

环境准备

模型下载

命令行测试

1. Qwen3.5-0.8B (Q4_K_M)

2. Qwen3.5-0.8B (UD-Q4_K_XL)

3. Qwen3.5-2B (UD-Q4_K_XL)

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具