Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型
记录了在 Windows 11 环境下使用 llama.cpp 运行 Qwen3.5 系列量化模型的测试过程。主要步骤包括下载 CPU 版本的 llama.cpp 二进制文件,从 HuggingFace 获取 GGUF 格式的量化模型(如 0.8B 和 2B 版本)。测试涵盖了翻译、数学解题及物理化学问答等任务。结果显示,UD-Q4_K_XL 精度优于 Q4_K_M,但小模型在复杂逻辑推理上存在幻觉或错误。生成速度方面,0.8B 模型约…












