开篇:你的显卡终于不用吃灰了
朋友,你电脑里那块 RTX 3060 是不是已经沦为闲置状态了?别着急,这周阿里放了个大招——Qwen 3.5 MoE 全系列开源,尤其是那个 35B-A3B 的'显存刺客'版本,用 3B 的激活参数干 35B 参数的活儿,堪称'显存不够,智商来凑'的典范。
所谓 MoE(Mixture of Experts,混合专家模型),你可以理解为 AI 界的'会诊制度'。普通模型是个'全科医生',啥病都得看;MoE 则是'专家会诊台',来了病人先分给对应科室的专家,既保证了专业度,又不需要把所有专家都请到现场——省电省显存,聪明得很。
今天这篇就带你用 Ollama 一把梭,从下载到跑通 API,全程不用配 Python 环境,不用折腾 PyTorch,十分钟让你的本地大模型从'PPT 阶段'进入'生产环境'。
一、选型指南:你的显卡能跑哪个版本?
Qwen 3.5 这次发布堪称'全家桶式开卷',从手机能跑的 0.8B 到工作站专属的 35B,全给你安排明白了。但别一上来就冲着最大的下载,先看看你机箱里那位'煤气灶'的成色:
显存 4GB 以下(轻薄本/老显卡)
选 0.8B 或 2B 版本。这俩是


