显卡先别急着吃灰
如果你手里有一张还算能打的显卡,这次大概率能派上用场。阿里这次把 Qwen 3.5 MoE 全系列开源了,里面最有意思的是 35B-A3B 这个版本:名义上是 35B,真正激活的参数只有 3B 左右,算是把'显存不够,智商来凑'这件事做得很彻底。
MoE(Mixture of Experts,混合专家模型)可以理解成一套分诊系统。普通模型更像全科医生,什么问题都要自己兜着;MoE 则会先把请求分给更合适的专家,只调用其中一部分参数。这样做的好处很直接:省显存,也省算力。代价是部署和调参时,你得稍微接受它不是那种'一把梭全通吃'的模型。
这篇记录只走一条最省事的路线:用 Ollama 把 Qwen 3.5 MoE 跑起来,再把 API 调用打通。中间不碰 Python 环境,也不折腾 PyTorch。适合想快速验证本地效果的人。
先看显存,别一上来就下载最大的
Qwen 3.5 这次的版本覆盖得很全,从 0.8B 到 35B 都有。选哪个,不看情怀,先看你机器能不能稳稳扛住。
显存 4GB 以下
选 0.8B 或 2B。轻薄本、老卡基本只能从这里开始,别想着一步到位。
显存 6GB 到 8GB
可以试 7B。日常聊天、简单问答够用,速度也不会太难看。
显存 12GB 到 16GB
14B 是比较稳的选择。这个档位通常是'能跑'和'跑得像样'之间最舒服的位置。
显存 24GB 以上
再去碰 32B 或 35B。35B-A3B 这种 MoE 版本的吸引力就在这里:模型体量大,但实际激活参数没那么夸张,部署门槛比纯大参数模型低一截。
用 Ollama 拉模型
先确认你已经装好 Ollama。没装的话先去官方文档看安装方式,装完后直接拉模型:
ollama pull qwen3.5
如果你想指定具体版本,就按 Ollama 的模型命名方式来。不同版本的 tag 可能会有差异,实际以你本地能拉到的仓库名为准。我的习惯是先把默认版跑通,再考虑上更大的模型,不然一开始就和下载、显存、量化格式较劲,体验不太好。
拉完之后直接启动:
ollama run qwen3.5
如果你本机服务已经起来了,默认会监听 Ollama 的接口端口。最简单的验证方式是直接对话,能出字就说明模型已经工作了。
API 调用
Ollama 起好以后,API 调用就很直接了。常用的是 http://localhost:11434/api/chat,发一个标准的 chat 请求就能拿到结果。
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5",
"messages": [
{"role": "user", "content": "你好,介绍一下你自己"}
],
"stream": false
}'
如果你更习惯补全接口,也可以用 /api/generate,思路差不多。实际开发里我会更偏向 chat,因为消息结构更接近现在主流应用的组织方式,后面要接多轮对话也顺手。
返回结果里重点看 message.content,那就是模型生成的正文。stream 设成 false 适合先排障;等确认没问题,再切成流式输出,前端体验会好不少。
我会怎么选
如果只是想体验一下本地大模型,7B 或 14B 已经够用了,没必要一开始就盯着 35B。MoE 的吸引力在于它让更大的模型有机会落到普通机器上,但'能跑'和'跑得舒服'还是两回事。
真正适合上 35B-A3B 的,通常是显存够、又想保留一定效果的人。它不算最轻,但比起同级纯大模型,已经明显友好了。对本地部署来说,这个平衡点挺实在。


