跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型

Windows 11 环境测试 llama.cpp 运行 Qwen3.5 量化模型。对比 0.8B Q4_K_M、0.8B UD-Q4_K_XL 及 2B UD-Q4_K_XL 版本。实测生成速度分别为 36t/s、32t/s 和 23t/s。UD-Q4_K_XL 精度略优。模型在翻译和数学计算上表现尚可,但物理题出现逻辑错误,连续对话存在上下文混淆问题。

时间旅人发布于 2026/3/27更新于 2026/6/1119 浏览

Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问 GitHub 发布页选择适合自己平台的 CPU 版本。

解压至工作目录,例如 ./llama8。

2. 下载量化模型

参考社区指南进行模型下载。建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA,精度损失可以忽略不计。

HuggingFace 命令行下载偶发连接超时,改用镜像站手动下载 GGUF 文件:

  1. Qwen3.5-0.8B.Q4_K_M.gguf
  2. Qwen3.5-0.8B-UD-Q4_K_XL.gguf
  3. Qwen3.5-2B-UD-Q4_K_XL.gguf

3. 模型测试

使用命令行格式进行测试,参数 --ctx-size 16384。

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

> translate into Chinese: No Thinking Content in History...
无思考内容的历史:在多轮对话中,历史模型的输出应仅包含最终输出部分...
[ Prompt: 437.5 t/s | Generation: 35.7 t/s ]

该模型未理解英译中的意思,直接抄录英文原文。修正指令后生成速度约 36 t/s。

3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

> translate into Chinese: Acyclic conjunctive queries form the backbone...
循环有向 conjunctive queries 构成了大多数分析工作负载的核心基础...
[ Prompt: 343.5 t/s | Generation: 31.6 t/s ]

> 用求根公式法解方程 x^2 - x - 20 = 0
根据题目要求,使用求根公式法解方程的步骤如下:
#### 1. 整理方程
将方程左边整理为标准形式 ax^2 + bx + c = 0...
#### 5. 结论
原方程的解为:x1 = 5, x2 = -4
[ Prompt: 302.9 t/s | Generation: 31.0 t/s ]

conjunctive queries 没有翻译出来。生成速度约 32 t/s。数学题回答正确。

3.3 第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

> translate into Chinese: Acyclic conjunctive queries form the backbone...
循环查询构成了大多数分析工作负载的核心...
[ Prompt: 199.7 t/s | Generation: 24.0 t/s ]

> 一物体静止在水平面上... 求此时力 F 的瞬时功率
要计算力 F 的瞬时功率,可以使用以下两种方法:
#### 方法一:利用定义 P = F ⋅ v
... P = m v^3 / 2x
#### 方法二:利用功能关系
... P = m v^3 / 4x
**结果:** 力 F 的瞬时功率为:P = m v^3 / 4x
[ Prompt: 203.0 t/s | Generation: 23.4 t/s ]

conjunctive queries 漏译了 conjunctive。物理题做错了。其实第一句就是正确答案,后来越说越错,用了两种方法还选了错更多的那个。比较网页版 Qwen 3.5 Plus 的回答,Plus 版本直接给出 P = Fv,指出距离 x 是干扰信息。

化学方程式的格式不错。连续对话容易错,把西红柿也说成了杂粮,抄了上一个问题的答案。生成速度约 23 t/s。

4. 总结

  • 速度对比:0.8B Q4_K_M (36 t/s) > 0.8B UD-Q4_K_XL (32 t/s) > 2B UD-Q4_K_XL (23 t/s)。
  • :UD-Q4_K_XL 翻译略优于 Q4_K_M,但均存在漏译现象。
精度表现
  • 逻辑能力:数学计算尚可,物理题出现幻觉错误,连续对话上下文易混淆。
  • 推荐:若追求速度可选 0.8B Q4_K_M;若追求精度可选 0.8B UD-Q4_K_XL。
  • 目录

    1. Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型
    2. 1. 下载 llama.cpp 二进制文件
    3. 2. 下载量化模型
    4. 3. 模型测试
    5. 3.1 第一个模型 (Qwen3.5-0.8B.Q4KM)
    6. 3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4KXL)
    7. 1. 整理方程
    8. 5. 结论
    9. 3.3 第三个模型 (Qwen3.5-2B-UD-Q4KXL)
    10. 方法一:利用定义 P = F ⋅ v
    11. 方法二:利用功能关系
    12. 4. 总结
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • 马斯克与 OpenAI 的“混乱分手”内幕:人才争夺、AGI 与权力斗争
    • Clawdbot 结合 Qwen3-32B 在 HR 与 IT 运维场景的落地实践
    • Dubbo 服务降级与 Mock 机制实战指南
    • 基于 Log4j 将日志持久化至 MongoDB 实践
    • OpenClaw「龙虾」掀起 AI 智能体革命
    • 2026 年国内高含金量人工智能认证 TOP8 盘点
    • 基于 Python 与 Flask 的黑龙江旅游景点数据分析系统设计与实现
    • Discord 机器人创建流程指南
    • AI 重构产品流程,让“人人都是产品经理”成为现实
    • 基于 Claude Code 与 Figma 的 AI 原型协作方案
    • DocxFactory: 基于 C++ 的 Word 文档处理库(无 Office 依赖)
    • 前端如何实现“记住密码”功能
    • JavaScript 条件语句与循环结构详解
    • HuggingFace 本地模型下载与加速指南
    • 本地代码文件夹上传至 GitHub 详细步骤与命令集合
    • 零基础黑客入门:普通人成为安全专家的十个步骤
    • Mac mini 部署 OpenClaw 网关指南
    • Dify 工作流发布为 MCP Server 实战指南
    • Cursor 集成 MCP 服务实战指南
    • Python 核心语法详解:变量、流程控制、函数与数据结构

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • Base64 字符串编码/解码

      将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online