Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型 | 极客日志

C++AI算法

Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型

Windows11 环境下通过 llama.cpp 本地部署并测试 Qwen3.5 系列量化模型。对比了 0.8B 的 Q4_K_M 与 UD-Q4_K_XL 及 2B UD-Q4_K_XL 三种版本。测试涵盖翻译、数学计算及物理问题解答。结果显示 0.8B Q4_K_M 速度最快约 36 t/s 但推理能力较弱；UD-Q4_K_XL 精度更高；2B 模型速度降至 23 t/s 左右。发现小模型在处理复杂逻辑时存在幻觉或错误，连续对话易出错。建议根据性能需求选择量化方案。

剑仙发布于 2026/4/9更新于 2026/7/2349 浏览

Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问官方发布页面： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于没有独立显卡，选择 CPU 版本。下载地址示例： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到本地目录，例如 D:\llama8\。

2. 下载量化模型

参考社区指南，建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现优异，精度损失可以忽略不计。

原 HuggingFace 命令行方式可能因网络问题失败，可尝试使用镜像站手工查找文件，用 wget 分别下载不同版本：

Qwen3.5-0.8B.Q4_K_M.gguf https://hf-mirror.com/Mustafaege/Qwen3.5-0.8B-GGUF-q4_k_m/resolve/main/Qwen3.5-0.8B.Q4_K_M.gguf?download=true
Qwen3.5-0.8B-UD-Q4_K_XL.gguf https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf?download=true
Qwen3.5-2B-UD-Q4_K_XL.gguf https://hf-mirror.com/unsloth/Qwen3.5-2B-GGUF/resolve/main/Qwen3.5-2B-UD-Q4_K_XL.gguf?download=true

相关页面有具体调用方法的说明，为简单起见，使用命令行格式进行测试。

3. 模型测试

3.1 第一个模型 (0.8B Q4_K_M)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

测试结果：

翻译任务：直接抄录英文原文，未理解英译中意图。修正指令后正常输出。
生成速度：约 36 t/s。
内存占用：Host 1192 MiB。

3.2 第二个模型 (0.8B UD-Q4_K_XL)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

模型	量化类型	速度 (t/s)	推理能力	备注
Qwen3.5-0.8B	Q4_K_M	~36	较弱	翻译易出错
Qwen3.5-0.8B	UD-Q4_K_XL	~32	中等	数学表现较好
Qwen3.5-2B	UD-Q4_K_XL	~23	较强	物理题仍有瑕疵

Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型

Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试

3.1 第一个模型 (0.8B Q4_K_M)

3.2 第二个模型 (0.8B UD-Q4_K_XL)

更多推荐文章

相关免费在线工具

3.3 第三个模型 (2B UD-Q4_K_XL)

4. 总结

更多推荐文章

相关免费在线工具

Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型

Windows11 下利用 llama.cpp 部署测试 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试

3.1 第一个模型 (0.8B Q4_K_M)

3.2 第二个模型 (0.8B UD-Q4_K_XL)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 第三个模型 (2B UD-Q4_K_XL)

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具