我在自己的 Windows 笔记本上尝试部署 Qwen3.5,这台机器没有独显,只能走 CPU 路线。阿里通义千问团队放出的 Qwen3.5 系列开源模型,能力覆盖文本、多模态等,但大尺寸模型根本加载不动,好在 ModelScope 上提供了 GGUF 量化版本,专门为 CPU 推理优化。
从 ModelScope 的 Qwen3.5 页面 可以快速定位到可用模型。Qwen3.5 宣称具备统一的视觉-语言基础、混合架构、可扩展强化学习、多语言支持等特性,不过我最需要的只是纯文本对话,所以直接挑了最小的 0.8B 参数量。参数量 B 代表 billion,越大模型越强,但也越吃资源。对无独显的机器,0.8B 量化版是唯一现实的选择。

进入 Qwen3.5-0.8B-GGUF 页面,里面列出了各种量化文件。

点击'下载模型',建议用命令行 clone,文件默认下载到 C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3.5-0.8B-GGUF。



GGUF 可以理解为一个专门为 LLM 推理优化过的压缩包,让模型能在普通电脑上跑起来。在众多量化文件中,Qwen3.5-0.8B-Q4_K_M.gguf 是最平衡的选择,兼顾对话质量与速度。如果内存实在紧张,Qwen3.5-0.8B-Q3_K_S.gguf 还能再小一点,但质量会轻微下降。像 mmproj-*.gguf 这类多模态投影文件,纯文本模型用不上;未量化的 BF16 版本体积大且没必要。我就选了 Q4_K_M。
下载完后,用 Ollama 来管理模型很方便。Ollama 是一个轻量工具,一行命令就能拉起本地推理服务,官网下载。










