本周AI开发者必学：Qwen 3.5 MoE 本地部署，10分钟跑通完整版

优质文章学习记录

07 Apr 2026 — 9 min read

文章目录

开篇：你的显卡终于不用吃灰了
一、选型指南：你的显卡能跑哪个版本？
二、Ollama 一键安装：比装微信还简单
三、模型下载：挑个"媳妇"娶回家
四、API 接口封装：让你的代码也能调用
- Python 调用示例：
- Java/Spring Boot 调用示例：
五、进阶玩法：开启"深度思考"模式
- 临时开启（单次对话）：
- 永久开启（修改 Modelfile）：
六、多模态实战：让 AI 看懂你的截图
- Python 多模态调用：
- 避坑指南：
七、性能调优：榨干最后一滴显存
八、生产环境部署：从玩具到工具
结语：本地部署的文艺复兴

无意间发现了一个ZEEKLOG大神的人工智能教程，忍不住分享一下给大家。很通俗易懂，重点是还非常风趣幽默，像看小说一样。床送门放这了👉 http://blog.ZEEKLOG.net/jiangjunshow

开篇：你的显卡终于不用吃灰了

朋友，你电脑里那块 RTX 3060 是不是已经沦为"蒸汽平台专属显卡"了？每天除了打《黑神话：悟空》就是对着桌面发呆。别着急，这周阿里放了个大招——Qwen 3.5 MoE 全系列开源，尤其是那个 35B-A3B 的"显存刺客"版本，用 3B 的激活参数干 35B 参数的活儿，堪称"显存不够，智商来凑"的典范。

所谓 MoE（Mixture of Experts，混合专家模型），你可以理解为 AI 界的"会诊制度"。普通模型是个"全科医生"，啥病都得看；MoE 则是"专家会诊台"，来了病人先分给对应科室的专家，既保证了专业度，又不需要把所有专家都请到现场——省电省显存，聪明得很。

今天这篇就带你用 Ollama 一把梭，从下载到跑通 API，全程不用配 Python 环境，不用折腾 PyTorch，十分钟让你的本地大模型从" PPT 阶段"进入"生产环境"。

一、选型指南：你的显卡能跑哪个版本？

Qwen 3.5 这次发布堪称"全家桶式开卷"，从手机能跑的 0.8B 到工作站专属的 35B，全给你安排明白了。但别一上来就冲着最大的下载，先看看你机箱里那位"煤气灶"的成色：

显存 4GB 以下（轻薄本/老显卡）

选 0.8B 或 2B 版本。这俩是"Lite 版"，虽然脑子小点，但写个周报、翻译个文档完全够用，关键是 CPU 都能跑，风扇都不带转的。

显存 8GB（RTX 3060/4060 笔记本）

闭眼入 9B 版本。这是甜点级，中文能力对标早期 GPT-4，写代码、写文案一手抓，显存占用大概 6GB 左右，还能留点余量挂个微信。

显存 16GB 以上（RTX 4080/4090 富哥）

直接上 35B-A3B MoE。这个版本 total 参数 35B，但每次只激活 3B 参数，推理时显存占用和 7B 模型差不多，但智商直接对标 GPT-4o mini。用 llama.cpp 跑 Q4_K_M 量化版，24GB 显存能吃得消。

苹果 M 系列用户

恭喜你们，统一内存架构就是为 MoE 而生的。M3 Pro 以上机型跑 9B 版本流畅得跟原生应用似的，M3 Max 甚至可以试试 35B 版本。

二、Ollama 一键安装：比装微信还简单

别被那些"先装 CUDA、再配 PyTorch、最后编译 llama.cpp"的教程吓退，咱们用 Ollama——这工具堪称大模型界的"Docker Hub"，一个命令行工具搞定所有环境。

Windows/macOS 用户：

直接去 ollama.com 下载安装包，双击、下一步、完成。安装完后右下角会出现个羊驼图标，说明服务已经跑起来了。

Linux 用户（Ubuntu/Debian）：

一条命令搞定：

curl-fsSL https://ollama.com/install.sh |sh

装完后验证一下：

ollama --version

输出类似 ollama version 0.5.1 就算成功。

国内网络加速技巧：

如果下载慢，可以设置镜像源。在终端输入（Windows 用 PowerShell）：

Windows PowerShell

$env:OLLAMA_HOST="0.0.0.0"

Linux/macOS

exportOLLAMA_HOST=0.0.0.0

三、模型下载：挑个"媳妇"娶回家

Ollama 的模型库就是个"应用商店"，咱们直接搜 qwen3.5。这里有个坑要注意：MoE 版本和普通版本的命名规则不一样，别下错了。

查看可用模型：

ollama pull qwen3.5:9b

这条命令会开始下载 9B 版本。如果你要 MoE 版本，目前 Ollama 库中可能显示为 qwen3.5:35b 或类似的标签。下载时盯着终端看，速度取决于你的宽带，一般来说 9B 版本大概 5GB 左右，35B 量化版大约 20GB。

下载完成后测试：

ollama run qwen3.5:9b

这时候你会进入交互模式，光标闪烁处直接打字：

用鲁迅的口吻评价一下程序员写代码不写注释

如果看到模型开始"之乎者也"地吐槽，说明部署成功。按 Ctrl+D 退出对话。

四、API 接口封装：让你的代码也能调用

光在终端聊天可不行，咱们得让 Python/Java 代码也能调用。Ollama 自带兼容 OpenAI 格式的 API，这就是"披着羊驼皮的 ChatGPT"。

启动 API 服务：

ollama serve

这条命令会在后台挂起服务，默认监听 localhost:11434。

Python 调用示例：

from openai import OpenAI # 初始化客户端，api_key 随便填，base_url 指向本地 client = OpenAI( base_url='http://localhost:11434/v1', api_key='ollama'# 本地部署不需要验证，但参数必须给)# 调用对话接口 response = client.chat.completions.create( model='qwen3.5:9b',# 必须和 ollama list 显示的完全一致 messages=[{'role':'system','content':'你是个毒舌但专业的编程助手'},{'role':'user','content':'帮我写个 Python 爬虫，爬取豆瓣电影 Top250'}], stream=True# 流式输出，打字机效果)# 处理流式响应for chunk in response:if chunk.choices[0].delta.content:print(chunk.choices[0].delta.content, end='', flush=True)

Java/Spring Boot 调用示例：

@RestControllerpublicclassAIController{@PostMapping("/chat")publicSseEmitterchat(@RequestBodyString message){SseEmitter emitter =newSseEmitter();WebClient client =WebClient.builder().baseUrl("http://localhost:11434").build();Map body =Map.of("model","qwen3.5:9b","messages",List.of(Map.of("role","user","content", message)),"stream",true); client.post().uri("/api/chat").bodyValue(body).retrieve().bodyToFlux(String.class).subscribe(data ->{try{ emitter.send(data);}catch(Exception e){ emitter.completeWithError(e);}}, emitter::completeWithError, emitter::complete);return emitter;}}

五、进阶玩法：开启"深度思考"模式

Qwen 3.5 有个隐藏技能——思考模式（Thinking Mode）。默认情况下，9B 及以下版本为了省算力是关闭的，但你可以手动开启，让模型像 o1 一样"深呼吸"再回答。

临时开启（单次对话）：

ollama run qwen3.5:9b --chat-template-kwargs '{"enable_thinking":true}'

永久开启（修改 Modelfile）：

先导出当前模型的配置：

ollama show qwen3.5:9b --modelfile> Modelfile

编辑这个文件，在 FROM 行下面添加：

FROM qwen3.5:9b # 启用思考模式 PARAMETER temperature 0.7 SYSTEM 你是一个擅长深度推理的 AI 助手，回答前请先逐步思考

然后创建新模型：

ollama create qwen3.5-thinking -f Modelfile ollama run qwen3.5-thinking

这时候问它"证明一下哥德巴赫猜想"，你会看到它先输出一堆 `` 标签包裹的思考过程，最后给出结论——虽然还是证不出来，但过程看着就很专业。

六、多模态实战：让 AI 看懂你的截图

如果你下载的是 Qwen3.5-VL 版本（视觉模型），它还能看懂图片。这个在写前端代码时特别有用——直接把 UI 设计稿截图扔给它，让它生成 HTML/CSS。

Python 多模态调用：

import base64 # 读取图片转 base64withopen("ui_design.png","rb")as f: image_base64 = base64.b64encode(f.read()).decode('utf-8') response = client.chat.completions.create( model='qwen3.5-vl:7b',# VL 版本 messages=[{"role":"user","content":[{"type":"text","text":"把这个设计稿转成 HTML+Tailwind CSS 代码"},{"type":"image_url","image_url":{"url":f"data:image/png;base64,{image_base64}"}}]}])

避坑指南：

图片别太大，建议压缩到 1024x1024 以下，不然显存会炸。如果显存不足，Ollama 会自动 fallback 到 CPU 模式，那时候速度就比 2G 网络还慢了。

七、性能调优：榨干最后一滴显存

1. 上下文长度控制

Qwen 3.5 支持 256K 上下文，但默认可能只开 4K。在 Modelfile 里加一行：

PARAMETER num_ctx 8192

显存够的话可以开到 32K，写长篇小说续写都没问题。

2. GPU offload 调优

如果你用 llama.cpp 而非 Ollama，可以精细控制层数：

./llama-cli -m qwen3.5-9b-Q4_K_M.gguf \ --n-gpu-layers 35\-c8192\--temp0.7

--n-gpu-layers 35 表示把 35 层权重扔给显卡，剩下的 CPU 扛。数字越大显存占用越高，根据实际情况调。

3. 并发优化

默认 Ollama 只处理一个请求，想同时服务多个用户：

exportOLLAMA_NUM_PARALLEL=4exportOLLAMA_MAX_LOADED_MODELS=2 ollama serve

八、生产环境部署：从玩具到工具

如果你要把这个部署到公司内网，别直接用 ollama run，得用 Docker 封装：

version:'3.8'services:ollama:image: ollama/ollama:latest volumes:- ./models:/root/.ollama ports:- 11434:11434deploy:resources:reservations:devices:-driver: nvidia count:1capabilities:[gpu]

配合 Open-WebUI 或者 Cherry Studio，你就能得到一个完全私有化、数据不出域的 ChatGPT 替代品。

结语：本地部署的文艺复兴

以前我们总说"本地部署大模型"是极客的玩具，又慢又笨。但 Qwen 3.5 MoE 架构的出现，加上 Ollama 这种"傻瓜式"工具，让这件事变得比配 Java 环境还简单。4GB 显存就能跑，断网也能用，数据还留在自己硬盘里——这对于处理合同、病历、内部文档的开发者来说，简直是刚需。

这周花十分钟搭起来，下周你的同事还在排队申请 GPT-4 API 额度的时候，你已经在本地跑完了一百份文档的总结。技术这玩意儿，有时候"快"就是"好"，“本地"就是"自由”。

赶紧试试吧，别让显卡再闲置了。

Z-Image-Turbo新手入门：从0开始玩转AI绘画

Z-Image-Turbo新手入门：从0开始玩转AI绘画你是不是也试过在AI绘画工具前卡住——输入一段精心写的提示词，等了十几秒，结果画面模糊、文字错乱、人物缺胳膊少腿？或者刚配好环境，显存就爆了，连第一张图都跑不出来？别急。今天要介绍的这个工具，可能就是你一直在找的“那个对的”：Z-Image-Turbo。它不是又一个参数堆出来的庞然大物，而是一款真正为“人”设计的AI绘画模型——8步出图、16GB显存就能跑、中文提示直接理解不翻译、生成的照片级真实感让人忍不住多看两眼。更重要的是，它开箱即用，不用下载权重、不用调依赖、不用查报错日志，点开浏览器就能画。这篇文章就是为你写的。无论你是第一次听说“文生图”，还是已经折腾过Stable Diffusion但被配置劝退，只要你有一台带NVIDIA显卡的电脑（RTX 3090及以上更佳），接下来15分钟，你就能亲手生成第一张属于自己的AI作品。我们不讲原理推导，不列公式，不堆术语。只说三件事：怎么最快启动它怎么写出让它“听懂”的提示词怎么避开新手最容易踩的5个坑准备好了？

5款开源PPT生成大模型实测对比：从ChatGPT到文心一言，哪款最适合你？

5款开源PPT生成大模型深度评测：从技术原理到实战效果在数字化办公时代，PPT制作已成为职场人士的日常必修课。传统PPT制作流程耗时费力，从内容构思到排版设计往往需要数小时甚至更长时间。而随着AI技术的快速发展，开源大模型正在彻底改变这一局面——只需简单指令，AI就能在几分钟内生成结构完整、设计专业的演示文稿。本文将聚焦5款最具代表性的开源PPT生成工具，从技术架构、生成效果到适用场景进行全面对比，帮助技术从业者和内容创作者找到最适合自己的生产力利器。 1. 开源PPT生成技术概览 PPT生成AI的核心在于将自然语言指令转化为结构化视觉呈现，这背后涉及三大关键技术模块： 1. 内容理解引擎：基于大语言模型（LLM）解析用户输入的文本指令，提取关键信息并组织成逻辑连贯的叙述结构 2. 设计适配系统：根据内容类型自动匹配最佳版式，包括布局、配色、字体等视觉元素 3. 文档生成组件：将结构化内容与设计模板融合，输出标准PPT文件格式（如.pptx）当前主流开源方案主要分为两类架构：架构类型代表模型核心优势典型适用场景API调用型ChatGPT-PPT生成质量高需

Whisper语音识别快速入门：从安装到使用的完整指南

Whisper语音识别快速入门：从安装到使用的完整指南 1. 引言：为什么你需要一个开箱即用的语音识别工具？想象一下，你刚参加完一场国际线上会议，里面有中文、英文、日语的发言。你想快速整理会议纪要，但手动听写不仅耗时，还可能因为语言障碍遗漏关键信息。或者，你是一个内容创作者，需要为一段外语采访视频快速生成字幕。这些场景，正是语音识别技术大显身手的地方。传统上，搭建一个能用的语音识别系统门槛不低：你需要懂深度学习框架、会处理音频、还得搞定模型部署。光是处理各种依赖和版本冲突，就足以劝退很多人。但现在，情况不同了。基于OpenAI Whisper large-v3模型的预置镜像，让这一切变得异常简单。这个镜像已经把模型、Web界面、音频处理工具全部打包好，你只需要几条命令，就能在浏览器里拥有一个支持99种语言的语音转文字服务。它不仅能识别，还能自动检测你说的是哪种语言，甚至可以把内容翻译成英文。这篇文章，就是带你一步步把这个强大的工具跑起来，并告诉你如何用好它。 2. 环境准备：你的电脑需要什么？在开始之前，我们先看看运行这个服务需要什么样的“硬件底子”。这就像

AI小说创作神器：5分钟快速部署本地自动写作平台

AI小说创作神器：5分钟快速部署本地自动写作平台【免费下载链接】AI_NovelGenerator使用ai生成多章节的长篇小说，自动衔接上下文、伏笔项目地址: https://gitcode.com/GitHub_Trending/ai/AI_NovelGenerator 还在为灵感枯竭而烦恼？想拥有一个能自动生成长篇小说的AI助手吗？今天就来教你如何在5分钟内搭建AI_NovelGenerator，开启AI辅助小说创作之旅。这款开源工具能够自动衔接上下文、埋设伏笔，让你的创作效率提升10倍！ 🚀 环境准备：零基础也能轻松搞定 Python环境检查与安装首先确保你的电脑已安装Python 3.9或更高版本。打开命令行输入以下命令检查Python版本： python --version 如果显示版本号低于3.9，请前往Python官网下载最新版本。推荐使用Python 3.10-3.12，这些版本兼容性最佳。获取AI模型API密钥你需要一个有效的API密钥来连接AI模型。支持多种服务商： * OpenAI系列（GPT-4、GPT-3.5等） * D