Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

环境准备与模型下载

本次测试在 Windows 11 环境下进行，由于无独立显卡，选用 CPU 版本的 llama.cpp 二进制文件。

1. 获取 llama.cpp 工具

访问 GitHub 官方发布页面下载对应平台的 CPU 版本： https://github.com/ggml-org/llama.cpp/releases

解压至本地目录，例如 D:\llama8。

2. 获取量化模型

参考社区通用部署指南，建议优先选择 UD-Q4_K_XL 或 Q4_K_M 量化方案。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现优异，精度损失可忽略不计。

直接使用 huggingface_hub 命令行下载时可能遇到连接超时问题（WinError 10060），建议通过镜像站手动下载 GGUF 文件。本次测试选取了三个版本：

Qwen3.5-0.8B.Q4_K_M.gguf (非 Unsloth 官方，但大小相近)
Qwen3.5-0.8B-UD-Q4_K_XL.gguf (Unsloth 官方)
Qwen3.5-2B-UD-Q4_K_XL.gguf (Unsloth 官方)

模型性能实测

使用 llama-cli 命令行工具进行测试，上下文窗口设置为 16384。

测试一：Qwen3.5-0.8B.Q4_K_M

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

结果反馈：

翻译能力： 初始提示词直接抄录英文原文，未执行翻译指令；修正为 "translate into Chinese" 后输出正常。
推理速度： Prompt 约 450 t/s，Generation 约 36 t/s。
内存占用： Host 约 1192 MiB。

测试二：Qwen3.5-0.8B-UD-Q4_K_XL

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

结果反馈：

翻译能力： 能够准确翻译技术文档内容，如 "Acyclic conjunctive queries..."。
数学推理： 能完整展示求根公式法解题步骤，逻辑清晰。
推理速度： Generation 约 32 t/s。
内存占用： Host 约 1222 MiB。

测试三：Qwen3.5-2B-UD-Q4_K_XL

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

结果反馈：

翻译能力： 漏译部分术语（如 "conjunctive"）。
数学推理： 求根公式法正确，但因式分解法出现计算错误（将 x^2-x-20=0 解为 4, -5）。
物理题： 瞬时功率计算出现偏差，对比网页版 Qwen3.5 Plus，本地小模型在处理复杂物理推导时容易引入干扰信息。

Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

环境准备与模型下载

1. 获取 llama.cpp 工具

2. 获取量化模型

模型性能实测

测试一：Qwen3.5-0.8B.Q4_K_M

测试二：Qwen3.5-0.8B-UD-Q4_K_XL

测试三：Qwen3.5-2B-UD-Q4_K_XL

更多推荐文章

相关免费在线工具

总结与观察

更多推荐文章

相关免费在线工具

Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型实测

环境准备与模型下载

1. 获取 llama.cpp 工具

2. 获取量化模型

模型性能实测

测试一：Qwen3.5-0.8B.Q4_K_M

测试二：Qwen3.5-0.8B-UD-Q4_K_XL

测试三：Qwen3.5-2B-UD-Q4_K_XL

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结与观察

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具