Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 Qwen3.5 量化模型实测

在 Windows 环境下，利用 llama.cpp 运行量化后的 LLM 是体验本地大模型的高效方案。本文记录了在无独立显卡的 Windows 11 机器上，通过 CPU 调用 Qwen3.5 不同版本量化模型的测试过程与性能表现。

环境准备

首先从官方发布页获取 llama.cpp 的二进制文件，选择适合平台的 CPU 版本（如 win-cpu-x64）。解压后建议统一存放于特定目录，例如 D:\llama8\。

模型下载

社区普遍推荐优先选择 UD-Q4_K_XL 或 Q4_K_M 量化格式。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在精度损失可忽略的前提下表现优异。

由于直接使用 HuggingFace Hub 命令行工具时可能遇到连接超时问题，建议通过镜像站手动下载 GGUF 文件。本次测试主要涉及以下三个版本：

Qwen3.5-0.8B.Q4_K_M.gguf
Qwen3.5-0.8B-UD-Q4_K_XL.gguf
Qwen3.5-2B-UD-Q4_K_XL.gguf

将模型文件放置在与 llama-cli 相同的目录下，方便调用。

命令行测试流程

使用 llama-cli 进行交互测试，设置上下文窗口为 16384 以支持多轮对话。

llama-cli -m <model_file> --ctx-size 16384

加载成功后会进入交互式模式，支持 /exit, /clear, /read 等命令。

测试结果与分析

1. Qwen3.5-0.8B (Q4_K_M)

该版本生成速度较快，约 36 t/s。但在指令遵循上存在明显短板。

翻译任务：当提示词为 "translate into Chinese" 时，模型有时直接忽略指令，输出英文原文。修正提示词后能正常响应。
数学计算：求解一元二次方程 x^2 - x - 20 = 0 时，能够正确给出步骤和结果（5, -4）。
物理题：在处理瞬时功率计算时出现逻辑错误，推导过程混乱，最终结论与标准答案不符。

内存占用方面，Host 端约 1192 MiB，CPU_REPACK 约 181 MiB。

2. Qwen3.5-0.8B (UD-Q4_K_XL)

切换到 UD 量化版本后，生成速度约为 32 t/s，略有下降但质量提升。

专业术语：在翻译关于 "conjunctive queries" 的技术文档时，部分术语未能准确翻译，显示出对特定领域词汇的理解仍有限。
数学能力：求根公式法和因式分解法均能正确解出方程，且能根据要求仅输出结果。

3. Qwen3.5-2B (UD-Q4_K_XL)

参数量增加带来了一定的推理能力提升，但生成速度降至 23 t/s 左右。

翻译质量：相比 0.8B 版本，长难句的翻译流畅度有所改善，但仍存在漏译现象。
逻辑推理：物理题依然出错。模型在推导过程中使用了两种方法，却选择了错误的那个作为最终结论。对比网页版 Qwen3.5-Plus 的回答，本地小模型在复杂逻辑链上的稳定性仍有差距。
连续对话：在多轮对话中，模型容易混淆上下文。例如在回答'西红柿怎么传到中国'时，错误地沿用了上一个问题'红薯'的答案片段，将其描述为杂粮。

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 Qwen3.5 量化模型实测

环境准备

模型下载

命令行测试流程

测试结果与分析

1. Qwen3.5-0.8B (Q4_K_M)

2. Qwen3.5-0.8B (UD-Q4_K_XL)

3. Qwen3.5-2B (UD-Q4_K_XL)

更多推荐文章

相关免费在线工具

总结

更多推荐文章

相关免费在线工具

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型实测

Windows 11 本地部署 Qwen3.5 量化模型实测

环境准备

模型下载

命令行测试流程

测试结果与分析

1. Qwen3.5-0.8B (Q4_K_M)

2. Qwen3.5-0.8B (UD-Q4_K_XL)

3. Qwen3.5-2B (UD-Q4_K_XL)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具