跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 环境下使用 llama.cpp 工具对 Qwen3.5 系列量化模型进行本地推理测试。通过 CPU 后端加载不同量化版本(Q4_K_M、UD-Q4_K_XL)的 0.8B 与 2B 模型,对比生成速度与回答质量。测试涵盖翻译、数学计算及物理题解答。结果显示 UD-Q4_K_XL 精度略优但速度稍慢,2B 模型逻辑能力优于 0.8B。部分复杂任务存在幻觉或错误,需结合具体场景选择合适量化方案。

邪神洛基发布于 2026/3/27更新于 2026/6/424 浏览

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问官方发布页面: https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于没有独立显卡,选择 CPU 版本。

下载地址示例: https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到 D:\llama8 目录。

2. 下载量化模型

参考相关社区指南,建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA(State of the Art),精度损失可以忽略不计。

原 HuggingFace 命令行方式失败,因此通过镜像站手工查找文件,用 wget 分别下载了以下版本:

  1. https://hf-mirror.com/Mustafaege/Qwen3.5-0.8B-GGUF-q4_k_m/resolve/main/Qwen3.5-0.8B.Q4_K_M.gguf?download=true
  2. https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf?download=true
  3. https://hf-mirror.com/unsloth/Qwen3.5-2B-GGUF/resolve/main/Qwen3.5-2B-UD-Q4_K_XL.gguf?download=true

第一个模型非 Unsloth 官方发布,大小与官方差不多,作为对比保留。

3. 模型测试

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384 -cnv

输出日志:

load_backend: loaded RPC backend from C:\d\llama8\ggml-rpc.dll
load_backend: loaded CPU backend from C:\d\llama8\ggml-cpu-zen4.dll
Loading model...
build : b8192-137435ff1
model : Qwen3.5-0.8B.Q4_K_M.gguf
modalities : 
available commands:
/exits  Ctrl+C   
/regen regenerate the last response
/clear clear the chat history
/read add a  file
text
or
stop
or
exit
text

测试指令:

> translate into Chinese: No Thinking Content in History: In multi-turn conversations, the historical model output should only include the final output part and does not need to include the thinking content. It is implemented in the provided chat template in Jinja2. However, for frameworks that do not directly use the Jinja2 chat template, it is up to the developers to ensure that the best practice is followed.

结果:无思考内容的历史:在多轮对话中,历史模型的输出应仅包含最终输出部分,无需包含思考内容。该实现方式已嵌入到提供的聊天模板中(Jinja2)。但对于不使用该 Jinja2 聊天模板的框架,应由开发者确保遵循最佳实践。

Prompt: 437.5 t/s | Generation: 35.7 t/s

翻译 PostgreSQL 描述:

PostgreSQL 是一个强大的开源对象关系数据库系统,拥有超过 35 年的活跃开发历史。该系统因其卓越的重叠性、强大的功能完备性以及出色的性能表现,在国际上获得了广泛认可。

Prompt: 450.5 t/s | Generation: 35.6 t/s

内存占用分析:

llama_memory_breakdown_print: | memory breakdown [MiB] |
total free self model context compute unaccounted |
llama_memory_breakdown_print: | - Host | 1192 = 492 + 211 + 489 |
llama_memory_breakdown_print: | - CPU_REPACK | 181 = 181 + 0 + 0 |

结论:0.8B Q4_K_M 量化的生成速度约 36 t/s。直接抄录英文原文的情况较多,需明确指令。

3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384 -cnv

测试指令:

> translate into Chinese: Acyclic conjunctive queries form the backbone of most analytical workloads...

结果:循环有向 conjunctive queries 构成了大多数分析工作负载的核心基础...(翻译质量有所提升)。

数学题测试:

> 用求根公式法解方程 x^2-x-20=0

结果: 步骤清晰,计算正确。 x1 = 5, x2 = -4

Prompt: 302.9 t/s | Generation: 31.0 t/s

因式分解法测试:

> 用因式分解法解方程 x^2-x-20=0

结果:x1 = 5, x2 = -4

Prompt: 324.5 t/s | Generation: 30.8 t/s

物理题测试:

> 一物体静止在水平面上,在水平恒力 F 作用下由静止开始运动,前进距离为 x 时,速度达到 v,求此时力 F 的瞬时功率

结果:推导过程存在错误,最终公式 P = mv^3 / 4x 有误,正确答案应为 P = Fv 或结合动能定理推导。

Prompt: 203.0 t/s | Generation: 23.4 t/s

结论:0.8B UD-Q4_K_XL 量化的生成速度约 32 t/s。conjunctive queries 漏译问题仍存在。

3.3 第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384 -cnv

翻译测试:

> translate into Chinese: Acyclic conjunctive queries form the backbone of most analytical workloads...

结果:循环查询构成了大多数分析工作负载的核心...(翻译更准确)。

Prompt: 199.7 t/s | Generation: 24.0 t/s

数学题测试:

> 用求根公式法解方程 x^2-x-20=0

结果:步骤详细,计算正确。 x1 = 5, x2 = -4

Prompt: 198.5 t/s | Generation: 23.3 t/s

物理题测试:

> 一物体静止在水平面上,在水平恒力 F 作用下由静止开始运动,前进距离为 x 时,速度达到 v,求此时力 F 的瞬时功率

结果:方法二推导出现错误,P = mv^3 / 4x。网页版 Qwen3.5-Plus 回答指出题目未给出质量 m,且瞬时功率核心公式是 P = Fv。

Prompt: 203.0 t/s | Generation: 23.4 t/s

化学题测试:

> 室温下,0.1 mol·L⁻¹ 氨水的 pH = 11。NH₃·H₂O 的电离方程式是?

结果:NH₃·H₂O ⇌ NH₄⁺ + OH⁻(格式不错)。

连续对话测试:

> 形而上学是什么意思?
> 红薯是怎么传到中国的?
> 西红柿是怎么传到中国的?

结果:连续对话容易错,把西红柿也说成了杂粮,抄了上一个问题的答案。

Prompt: 193.9 t/s | Generation: 23.4 t/s

结论:2B UD-Q4_K_XL 量化的生成速度约 23 t/s。相比 0.8B 模型,逻辑能力增强,但推理复杂物理题仍有偏差。

4. 总结

  • 速度:0.8B Q4_K_M 最快 (~36 t/s),2B 最慢 (~23 t/s)。
  • 质量:UD-Q4_K_XL 优于 Q4_K_M,但在特定术语翻译上仍有瑕疵。
  • 能力:2B 模型在数学和逻辑上优于 0.8B,但仍不如云端 Plus 版本。
  • 注意:连续对话易产生幻觉,需人工校验复杂任务结果。

目录

  1. Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型
  2. 1. 下载 llama.cpp 二进制文件
  3. 2. 下载量化模型
  4. 3. 模型测试
  5. 3.1 第一个模型 (Qwen3.5-0.8B.Q4KM)
  6. 3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4KXL)
  7. 3.3 第三个模型 (Qwen3.5-2B-UD-Q4KXL)
  8. 4. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 图形管线与渲染引擎中的 C++ 架构设计:模块化、跨平台与资源驱动实践
  • Windows 10 部署 llama.cpp 环境配置与编译指南
  • 华三 H3C 交换机 NTP 时间同步配置方法
  • 如何修改 Conda 环境的 Python 版本
  • SBUS 协议详解:从原理到 STM32 实战应用
  • C++ STL list 容器底层实现分析
  • Ubuntu SSH 服务安装与配置详解
  • Flutter 三方库 flutter_dropzone 的鸿蒙化适配指南
  • Spring 嵌入式内存数据库选型:H2、Derby 与 HSQL 对比
  • 基于 Java 的百度地图路线规划服务开发
  • 二分查找算法:山脉数组的峰顶索引与寻找峰值
  • C++ STL 基础:迭代器、auto 与范围 for 循环
  • 无人机与机器人群控通信技术现状及未来展望
  • C++ map 容器:键值对有序管理与高效检索
  • 2026 年前端、后端及算法岗位 AI 技能清单
  • RIDE 屏蔽 INFO 级别日志输出
  • QClaw 上手指南:OpenClaw 桌面端封装与微信直联体验
  • C++ 并发模型:内存序、可见性与指令重排
  • AI 时代产品经理的能力边界:AI 能做什么与不能做什么
  • LightRAG - 更快更便宜的 GraphRAG 技术详解

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online