Qwen 3.5 MoE 本地部署：用 Ollama 跑起来并调用 API

显卡先别急着吃灰

如果你手里有一张还算能打的显卡，这次大概率能派上用场。阿里这次把 Qwen 3.5 MoE 全系列开源了，里面最有意思的是 35B-A3B 这个版本：名义上是 35B，真正激活的参数只有 3B 左右，算是把'显存不够，智商来凑'这件事做得很彻底。

MoE（Mixture of Experts，混合专家模型）可以理解成一套分诊系统。普通模型更像全科医生，什么问题都要自己兜着；MoE 则会先把请求分给更合适的专家，只调用其中一部分参数。这样做的好处很直接：省显存，也省算力。代价是部署和调参时，你得稍微接受它不是那种'一把梭全通吃'的模型。

这篇记录只走一条最省事的路线：用 Ollama 把 Qwen 3.5 MoE 跑起来，再把 API 调用打通。中间不碰 Python 环境，也不折腾 PyTorch。适合想快速验证本地效果的人。

先看显存，别一上来就下载最大的

Qwen 3.5 这次的版本覆盖得很全，从 0.8B 到 35B 都有。选哪个，不看情怀，先看你机器能不能稳稳扛住。

显存 4GB 以下

选 0.8B 或 2B。轻薄本、老卡基本只能从这里开始，别想着一步到位。

显存 6GB 到 8GB

可以试 7B。日常聊天、简单问答够用，速度也不会太难看。

显存 12GB 到 16GB

14B 是比较稳的选择。这个档位通常是'能跑'和'跑得像样'之间最舒服的位置。

显存 24GB 以上

再去碰 32B 或 35B。35B-A3B 这种 MoE 版本的吸引力就在这里：模型体量大，但实际激活参数没那么夸张，部署门槛比纯大参数模型低一截。

用 Ollama 拉模型

先确认你已经装好 Ollama。没装的话先去官方文档看安装方式，装完后直接拉模型：

ollama pull qwen3.5

如果你想指定具体版本，就按 Ollama 的模型命名方式来。不同版本的 tag 可能会有差异，实际以你本地能拉到的仓库名为准。我的习惯是先把默认版跑通，再考虑上更大的模型，不然一开始就和下载、显存、量化格式较劲，体验不太好。

拉完之后直接启动：

ollama run qwen3.5

如果你本机服务已经起来了，默认会监听 Ollama 的接口端口。最简单的验证方式是直接对话，能出字就说明模型已经工作了。

API 调用

Ollama 起好以后，API 调用就很直接了。常用的是 http://localhost:11434/api/chat，发一个标准的 chat 请求就能拿到结果。

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5",
    "messages": [
      {"role": "user", "content": "你好，介绍一下你自己"}
    ],
    "stream": false
  }'

如果你更习惯补全接口，也可以用 /api/generate，思路差不多。实际开发里我会更偏向 chat，因为消息结构更接近现在主流应用的组织方式，后面要接多轮对话也顺手。

返回结果里重点看 message.content，那就是模型生成的正文。stream 设成 false 适合先排障；等确认没问题，再切成流式输出，前端体验会好不少。

我会怎么选

如果只是想体验一下本地大模型，7B 或 14B 已经够用了，没必要一开始就盯着 35B。MoE 的吸引力在于它让更大的模型有机会落到普通机器上，但'能跑'和'跑得舒服'还是两回事。

真正适合上 35B-A3B 的，通常是显存够、又想保留一定效果的人。它不算最轻，但比起同级纯大模型，已经明显友好了。对本地部署来说，这个平衡点挺实在。

显卡先别急着吃灰

先看显存，别一上来就下载最大的

Qwen 3.5 这次的版本覆盖得很全，从 0.8B 到 35B 都有。选哪个，不看情怀，先看你机器能不能稳稳扛住。

显存 4GB 以下

选 0.8B 或 2B。轻薄本、老卡基本只能从这里开始，别想着一步到位。

显存 6GB 到 8GB

可以试 7B。日常聊天、简单问答够用，速度也不会太难看。

显存 12GB 到 16GB

14B 是比较稳的选择。这个档位通常是'能跑'和'跑得像样'之间最舒服的位置。

显存 24GB 以上

再去碰 32B 或 35B。35B-A3B 这种 MoE 版本的吸引力就在这里：模型体量大，但实际激活参数没那么夸张，部署门槛比纯大参数模型低一截。

用 Ollama 拉模型

先确认你已经装好 Ollama。没装的话先去官方文档看安装方式，装完后直接拉模型：

ollama pull qwen3.5

拉完之后直接启动：

ollama run qwen3.5

如果你本机服务已经起来了，默认会监听 Ollama 的接口端口。最简单的验证方式是直接对话，能出字就说明模型已经工作了。

API 调用

Ollama 起好以后，API 调用就很直接了。常用的是 http://localhost:11434/api/chat，发一个标准的 chat 请求就能拿到结果。

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5",
    "messages": [
      {"role": "user", "content": "你好，介绍一下你自己"}
    ],
    "stream": false
  }'

返回结果里重点看 message.content，那就是模型生成的正文。stream 设成 false 适合先排障；等确认没问题，再切成流式输出，前端体验会好不少。

Qwen 3.5 MoE 本地部署：用 Ollama 跑起来并调用 API

显卡先别急着吃灰

先看显存，别一上来就下载最大的

显存 4GB 以下

显存 6GB 到 8GB

显存 12GB 到 16GB

显存 24GB 以上

用 Ollama 拉模型

API 调用

我会怎么选

Qwen 3.5 MoE 本地部署：用 Ollama 跑起来并调用 API

显卡先别急着吃灰

先看显存，别一上来就下载最大的

显存 4GB 以下

显存 6GB 到 8GB

显存 12GB 到 16GB

显存 24GB 以上

用 Ollama 拉模型

API 调用

我会怎么选

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

Qwen 3.5 MoE 本地部署：用 Ollama 跑起来并调用 API

显卡先别急着吃灰

先看显存，别一上来就下载最大的

显存 4GB 以下

显存 6GB 到 8GB

显存 12GB 到 16GB

显存 24GB 以上

用 Ollama 拉模型

API 调用

我会怎么选

Qwen 3.5 MoE 本地部署：用 Ollama 跑起来并调用 API

显卡先别急着吃灰

先看显存，别一上来就下载最大的

显存 4GB 以下

显存 6GB 到 8GB

显存 12GB 到 16GB

显存 24GB 以上

用 Ollama 拉模型

API 调用

我会怎么选

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具