无GPU也行：Qwen3.5 本地部署记录

一次在普通 Windows 笔记本上部署 Qwen3.5 的实践。从 ModelScope 下载 GGUF 量化模型，使用 Ollama 创建本地实例，但因无独显无法运行 LLaMaFactory 微调，最终用 llama.cpp 在 CPU 上成功启动推理服务。文章给出了具体的命令行操作和模型选择建议，确认 0.8B 量化版可在资源受限环境下跑通。

黑客帝国发布于 2026/6/100 浏览

我在自己的 Windows 笔记本上尝试部署 Qwen3.5，这台机器没有独显，只能走 CPU 路线。阿里通义千问团队放出的 Qwen3.5 系列开源模型，能力覆盖文本、多模态等，但大尺寸模型根本加载不动，好在 ModelScope 上提供了 GGUF 量化版本，专门为 CPU 推理优化。

从 ModelScope 的 Qwen3.5 页面可以快速定位到可用模型。Qwen3.5 宣称具备统一的视觉-语言基础、混合架构、可扩展强化学习、多语言支持等特性，不过我最需要的只是纯文本对话，所以直接挑了最小的 0.8B 参数量。参数量 B 代表 billion，越大模型越强，但也越吃资源。对无独显的机器，0.8B 量化版是唯一现实的选择。

Qwen3.5 特性

进入 Qwen3.5-0.8B-GGUF 页面，里面列出了各种量化文件。

模型基准

点击'下载模型'，建议用命令行 clone，文件默认下载到 C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3.5-0.8B-GGUF。

下载按钮

命令行下载

下载过程

GGUF 可以理解为一个专门为 LLM 推理优化过的压缩包，让模型能在普通电脑上跑起来。在众多量化文件中，Qwen3.5-0.8B-Q4_K_M.gguf 是最平衡的选择，兼顾对话质量与速度。如果内存实在紧张，Qwen3.5-0.8B-Q3_K_S.gguf 还能再小一点，但质量会轻微下降。像 mmproj-*.gguf 这类多模态投影文件，纯文本模型用不上；未量化的 BF16 版本体积大且没必要。我就选了 Q4_K_M。

下载完后，用 Ollama 来管理模型很方便。Ollama 是一个轻量工具，一行命令就能拉起本地推理服务，官网下载。

Ollama 下载