Qwen 3.5 MoE 本地部署指南：Ollama 快速运行与 API 调用

朋友，你电脑里那块 RTX 3060 是不是已经沦为闲置状态了？别着急，这周阿里放了个大招——Qwen 3.5 MoE 全系列开源，尤其是那个 35B-A3B 的'显存刺客'版本，用 3B 的激活参数干 35B 参数的活儿，堪称'显存不够，智商来凑'的典范。

所谓 MoE（Mixture of Experts，混合专家模型），你可以理解为 AI 界的'会诊制度'。普通模型是个'全科医生'，啥病都得看；MoE 则是'专家会诊台'，来了病人先分给对应科室的专家，既保证了专业度，又不需要把所有专家都请到现场——省电省显存，聪明得很。

今天这篇就带你用 Ollama 一把梭，从下载到跑通 API，全程不用配 Python 环境，不用折腾 PyTorch，十分钟让你的本地大模型从'PPT 阶段'进入'生产环境'。

Qwen 3.5 这次发布堪称'全家桶式开卷'，从手机能跑的 0.8B 到工作站专属的 35B，全给你安排明白了。但别一上来就冲着最大的下载，先看看你机箱里那位'煤气灶'的成色：

选 0.8B 或 2B 版本。这俩是

更多推荐文章