Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问官方发布页面： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于没有独立显卡，选择 CPU 版本。

下载地址示例： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到 D:\llama8 目录。

2. 下载量化模型

参考相关社区指南，建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA（State of the Art），精度损失可以忽略不计。

原 HuggingFace 命令行方式失败，因此通过镜像站手工查找文件，用 wget 分别下载了以下版本：

第一个模型非 Unsloth 官方发布，大小与官方差不多，作为对比保留。

3. 模型测试

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384 -cnv

输出日志：

load_backend: loaded RPC backend from C:\d\llama8\ggml-rpc.dll
load_backend: loaded CPU backend from C:\d\llama8\ggml-cpu-zen4.dll
Loading model...
build : b8192-137435ff1
model : Qwen3.5-0.8B.Q4_K_M.gguf
modalities : 
available commands:
/exits  Ctrl+C   
/regen regenerate the last response
/clear clear the chat history
/read add a  file

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问官方发布页面： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于没有独立显卡，选择 CPU 版本。

下载地址示例： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到 D:\llama8 目录。

2. 下载量化模型

原 HuggingFace 命令行方式失败，因此通过镜像站手工查找文件，用 wget 分别下载了以下版本：

第一个模型非 Unsloth 官方发布，大小与官方差不多，作为对比保留。

3. 模型测试

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384 -cnv

输出日志：

load_backend: loaded RPC backend from C:\d\llama8\ggml-rpc.dll
load_backend: loaded CPU backend from C:\d\llama8\ggml-cpu-zen4.dll
Loading model...
build : b8192-137435ff1
model : Qwen3.5-0.8B.Q4_K_M.gguf
modalities : 
available commands:
/exits  Ctrl+C   
/regen regenerate the last response
/clear clear the chat history
/read add a  file

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

更多推荐文章

相关免费在线工具

3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

3.3 第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

4. 总结

更多推荐文章

相关免费在线工具

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

Windows 11 使用 llama.cpp 运行 Qwen3.5 量化模型测试

Windows 11 下使用 llama.cpp 运行 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

2. 下载量化模型

3. 模型测试

3.1 第一个模型 (Qwen3.5-0.8B.Q4_K_M)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

3.3 第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具