Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试 | 极客日志

编程语言AI算法

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

综述由AI生成记录了在 Windows 11 环境下使用 llama.cpp 本地部署和测试 Qwen3.5 系列量化模型的过程。通过下载 CPU 版本的 llama.cpp 二进制文件及 Hugging Face 镜像站上的 GGUF 模型（包括 0.8B 和 2B 版本的不同量化方案），进行了多轮对话、翻译、数学计算及物理问题求解的推理测试。测试结果显示，UD-Q4_K_XL 量化版本在精度上优于 Q4_K_M，但生成速度随参数量增加而下降。同时发现小模型在处理复杂逻辑、物理公式推导及长文本翻译时存在幻觉或错误，需结合实际场景选择合适模型。

山野来信发布于 2026/4/6更新于 2026/5/2432 浏览

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

1. 下载 llama.cpp 二进制文件

访问 GitHub 发布页： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于无独立显卡，选择 CPU 版本。

下载地址示例： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压至 D:\llama8\ 目录。

2. 下载量化模型

参考社区指南，建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA（State of the Art），精度损失可以忽略不计。

原教程中的 hf download 命令行方式报错（连接超时），因此通过镜像站手工查找并下载文件。

下载链接如下：

注：第一个模型非 Unsloth 官方发布，大小与官方版相近，作为对比保留。

3. 模型测试与结果分析

使用 llama-cli 命令行工具进行测试，参数设置 --ctx-size 16384。

3.1 模型一：Qwen3.5-0.8B.Q4_K_M.gguf

命令：

C:\d\models\qw3508q4>\d\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

测试结果：

翻译任务： 输入 "translate into Chinese" 时未能正确理解指令，直接抄录英文原文；修正为 "transalte into Chinese" 后输出正常。
生成速度： 约 36 t/s。
内存占用： Host 1192 MiB。

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试与结果分析

3.1 模型一：Qwen3.5-0.8B.Q4_K_M.gguf

3.2 模型二：Qwen3.5-0.8B-UD-Q4_K_XL.gguf

更多推荐文章

相关免费在线工具

3.3 模型三：Qwen3.5-2B-UD-Q4_K_XL.gguf

4. 总结

更多推荐文章

相关免费在线工具

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试与结果分析

3.1 模型一：Qwen3.5-0.8B.Q4_K_M.gguf

3.2 模型二：Qwen3.5-0.8B-UD-Q4_K_XL.gguf

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 模型三：Qwen3.5-2B-UD-Q4_K_XL.gguf

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具