环境准备
在 Windows 11 环境下,我们使用 llama.cpp 的预编译二进制文件来运行本地大模型。由于测试机器没有独立显卡,本次选择 CPU 版本。
下载地址: https://github.com/ggml-org/llama.cpp/releases
解压后得到 llama-cli 等工具,建议存放于专用目录(如 D:\llama8)。
模型下载与准备
Qwen3.5 提供了多种量化版本(GGUF 格式)。根据社区经验,UD-Q4_K_XL 或 Q4_K_M 是精度与体积平衡较好的选择。Unsloth 官方测试显示 UD-Q4_K_XL 在帕累托前沿上表现优异,精度损失可忽略不计。
由于直接通过 HuggingFace CLI 下载可能遇到连接超时问题,建议使用镜像站手动下载。以下三个模型为本次测试对象:
- Qwen3.5-0.8B.Q4_K_M.gguf (非 Unsloth 官方发布,但大小相近)
- Qwen3.5-0.8B-UD-Q4_K_XL.gguf (Unsloth 官方发布)
- Qwen3.5-2B-UD-Q4_K_XL.gguf (Unsloth 官方发布)
测试过程与结果
1. Qwen3.5-0.8B (Q4_K_M 量化)
启动命令示例:
llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
性能表现: 生成速度约为 36 t/s (tokens/s)。
能力评估:
- 翻译任务: 对简单指令理解尚可,但对特定上下文(如'无思考内容的历史')处理较为生硬,有时直接复制原文而非翻译。
- 数学计算: 能够正确解一元二次方程,步骤清晰。
- 物理问题: 在涉及瞬时功率计算时出现偏差,未能准确识别干扰项,导致公式推导错误。
2. Qwen3.5-0.8B (UD-Q4_K_XL 量化)
性能表现: 生成速度约为 32 t/s。
能力评估:
- 翻译任务: 相比前一个版本,语义理解有所提升。例如将 "Acyclic conjunctive queries" 准确译为'无环连接查询',而非错误的'循环有向'。
- 数学计算: 求解方程逻辑稳定,能区分不同解题方法的要求。
- 局限性: 连续对话中偶尔会出现幻觉,例如将西红柿误描述为杂粮,或重复上一问题的答案。
3. Qwen3.5-2B (UD-Q4_K_XL 量化)
性能表现: 生成速度约为 23 t/s。
能力评估:
- 翻译任务: 译文流畅度进一步提高,对长难句的处理更自然。
- 数学计算: 求根公式法解答正确,但在因式分解环节出现系数错误(将 x²-x-20 分解为 (x-4)(x+5)),导致结果偏差。
- 物理问题: 同样存在物理题解答错误的问题,且推理过程比小模型更冗长,容易引入不必要的假设。
总结
| 模型版本 | 量化方式 |
|---|

