Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试 | 极客日志

C++AI算法

Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试

记录了在 Windows11 系统下使用 llama.cpp 工具本地部署和测试 Qwen3.5 系列量化模型的过程。主要步骤包括下载 CPU 版本的 llama.cpp 二进制文件，以及从 Hugging Face 获取不同量化规格的 GGUF 模型。测试涵盖了 0.8B 和 2B 两个参数量级，对比了翻译、数学计算及物理题解答的表现。结果显示，0.8B 模型生成速度最快约 36 t/s，但在翻译和逻辑上存在不足；2B 模型速度降至 23 t/s 左右，但理解能力和准确性有所提升。测试表明本地量化模型适合快速推理，但在复杂任务上仍需注意其局限性。

云间漫步发布于 2026/4/6更新于 2026/7/2367 浏览

Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试

1. 下载 llama.cpp 二进制文件

访问官方发布页面，选择适合自己平台的版本。由于没有独立显卡，本次选择 CPU 版本。解压到指定目录。

2. 下载量化模型

从 Hugging Face 镜像站或官方仓库下载 Qwen3.5 的 GGUF 格式量化模型。建议选用 UD-Q4_K_XL 或 Q4_K_M 量化方案。若命令行下载失败，可手动通过浏览器下载以下模型文件放入 models 目录：

Qwen3.5-0.8B.Q4_K_M.gguf
Qwen3.5-0.8B-UD-Q4_K_XL.gguf
Qwen3.5-2B-UD-Q4_K_XL.gguf

3. 模型测试与结果分析

3.1 Qwen3.5-0.8B (Q4_K_M)

命令示例：

llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

生成速度约 36 t/s。表现：翻译任务有时直接抄录原文，需调整指令；数学计算正确；物理题回答错误。

3.2 Qwen3.5-0.8B (UD-Q4_K_XL)

生成速度约 32 t/s。表现：翻译能力有所提升，能处理复杂术语；数学计算准确；连续对话中偶尔出现逻辑混淆。

3.3 Qwen3.5-2B (UD-Q4_K_XL)

生成速度约 23 t/s。表现：翻译质量进一步提高；数学计算准确；物理题推导过程存在错误，相比网页版 Plus 模型表现稍弱。

4. 总结

在 Windows11 环境下，利用 llama.cpp 配合 CPU 运行 Qwen3.5 量化模型是可行的。小参数模型（0.8B）推理速度快但能力有限，2B 模型在保持速度的同时提升了理解力。测试表明本地量化模型适合快速推理，但在复杂任务上仍需注意其局限性。

Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试

Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试与结果分析

3.1 Qwen3.5-0.8B (Q4_K_M)

3.2 Qwen3.5-0.8B (UD-Q4_K_XL)

3.3 Qwen3.5-2B (UD-Q4_K_XL)

4. 总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试

Windows11 下使用 llama.cpp 本地运行 Qwen3.5 量化模型测试

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试与结果分析

3.1 Qwen3.5-0.8B (Q4_K_M)

3.2 Qwen3.5-0.8B (UD-Q4_K_XL)

3.3 Qwen3.5-2B (UD-Q4_K_XL)

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具