跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Shell / BashSaaSAI

Qwen 3.5 MoE 本地部署:用 Ollama 跑起来并调用 API

Qwen 3.5 MoE 开源后,可以用 Ollama 直接在本地跑起来,不必先搭 Python 和 PyTorch 环境。文章按显存给出选型建议:4GB 以下选 0.8B/2B,6GB 到 8GB 可试 7B,12GB 到 16GB 更适合 14B,24GB 以上再考虑 32B 或 35B。随后给出 ollama pull 和 ollama run 的基本用法,以及通过 http://localhost:11434/api/chat 发起请求的示例。整体结论是:先跑通小模型,再按显存和需求往上加,35B-A3B 更适合显存充足、想兼顾效果的人。

独立开发者发布于 2026/6/300 浏览
Qwen 3.5 MoE 本地部署:用 Ollama 跑起来并调用 API

显卡先别急着吃灰

如果你手里有一张还算能打的显卡,这次大概率能派上用场。阿里这次把 Qwen 3.5 MoE 全系列开源了,里面最有意思的是 35B-A3B 这个版本:名义上是 35B,真正激活的参数只有 3B 左右,算是把'显存不够,智商来凑'这件事做得很彻底。

MoE(Mixture of Experts,混合专家模型)可以理解成一套分诊系统。普通模型更像全科医生,什么问题都要自己兜着;MoE 则会先把请求分给更合适的专家,只调用其中一部分参数。这样做的好处很直接:省显存,也省算力。代价是部署和调参时,你得稍微接受它不是那种'一把梭全通吃'的模型。

这篇记录只走一条最省事的路线:用 Ollama 把 Qwen 3.5 MoE 跑起来,再把 API 调用打通。中间不碰 Python 环境,也不折腾 PyTorch。适合想快速验证本地效果的人。

先看显存,别一上来就下载最大的

Qwen 3.5 这次的版本覆盖得很全,从 0.8B 到 35B 都有。选哪个,不看情怀,先看你机器能不能稳稳扛住。

显存 4GB 以下

选 0.8B 或 2B。轻薄本、老卡基本只能从这里开始,别想着一步到位。

显存 6GB 到 8GB

可以试 7B。日常聊天、简单问答够用,速度也不会太难看。

显存 12GB 到 16GB

14B 是比较稳的选择。这个档位通常是'能跑'和'跑得像样'之间最舒服的位置。

显存 24GB 以上

再去碰 32B 或 35B。35B-A3B 这种 MoE 版本的吸引力就在这里:模型体量大,但实际激活参数没那么夸张,部署门槛比纯大参数模型低一截。

用 Ollama 拉模型

先确认你已经装好 Ollama。没装的话先去官方文档看安装方式,装完后直接拉模型:

ollama pull qwen3.5

如果你想指定具体版本,就按 Ollama 的模型命名方式来。不同版本的 tag 可能会有差异,实际以你本地能拉到的仓库名为准。我的习惯是先把默认版跑通,再考虑上更大的模型,不然一开始就和下载、显存、量化格式较劲,体验不太好。

拉完之后直接启动:

ollama run qwen3.5

如果你本机服务已经起来了,默认会监听 Ollama 的接口端口。最简单的验证方式是直接对话,能出字就说明模型已经工作了。

API 调用

Ollama 起好以后,API 调用就很直接了。常用的是 http://localhost:11434/api/chat,发一个标准的 chat 请求就能拿到结果。

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5",
    "messages": [
      {"role": "user", "content": "你好,介绍一下你自己"}
    ],
    "stream": false
  }'

如果你更习惯补全接口,也可以用 /api/generate,思路差不多。实际开发里我会更偏向 chat,因为消息结构更接近现在主流应用的组织方式,后面要接多轮对话也顺手。

返回结果里重点看 message.content,那就是模型生成的正文。stream 设成 false 适合先排障;等确认没问题,再切成流式输出,前端体验会好不少。

我会怎么选

如果只是想体验一下本地大模型,7B 或 14B 已经够用了,没必要一开始就盯着 35B。MoE 的吸引力在于它让更大的模型有机会落到普通机器上,但'能跑'和'跑得舒服'还是两回事。

真正适合上 35B-A3B 的,通常是显存够、又想保留一定效果的人。它不算最轻,但比起同级纯大模型,已经明显友好了。对本地部署来说,这个平衡点挺实在。

目录

  1. 显卡先别急着吃灰
  2. 先看显存,别一上来就下载最大的
  3. 显存 4GB 以下
  4. 显存 6GB 到 8GB
  5. 显存 12GB 到 16GB
  6. 显存 24GB 以上
  7. 用 Ollama 拉模型
  8. API 调用
  9. 我会怎么选
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 2026 跨端框架怎么选:Flutter、RN、uni-app 与 KMP
  • 用 Trae Solo 模式做微信小程序:一次 2 小时实战
  • 昇腾平台上的 Llama-2-7b 部署与测评记录
  • 6 篇新论文:记忆、长上下文、医疗评测与机器人策略
  • 在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B
  • 海康机器人 3D 激光轮廓仪调试记录
  • 浏览器端播放 H.265:WebAssembly、FFmpeg 与 WebCodecs 的组合方案
  • 大模型上下文窗口 200k 到底是什么
  • 用 Rust 和 GLM-5 做一个流式翻译 CLI
  • Hunyuan-MT-7B-WEBUI 多语言翻译系统搭建与体验
  • Web25 中 php_mt_seed 的爆破思路
  • 8 个 AI 平台的速度和 Token 消耗实测
  • MySQL 8.0.41 安装、配置与入门操作
  • ControlNet-sd21 的入门与实战思路
  • 前缀和解子数组计数:和为 K 与可被 K 整除
  • HTML 入门:结构、常用标签与 HTML5 要点
  • 用 PyMobileDevice3 管理 iOS 设备
  • LeetCode 962 最大宽度坡的 C 语言做法
  • 用 Python 把 CSV 导入 Neo4j 的实操记录
  • VNCTF 2026 Web 题解整理

相关免费在线工具

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online