一、为什么选择 Qwen 系列本地部署?
1.1 Qwen 的核心优势
通义千问(Qwen)是阿里云开源的大语言模型系列,在中文理解、代码生成和推理能力上表现优异。最新发布的 Qwen3.5 系列更是首个原生视觉 - 语言模型家族,支持多模态理解,在 TAU2-Bench 评测中得分 86.7。
| 特性 | Qwen 系列优势 |
|---|---|
| 中文能力 | 原生中文训练,理解和生成远超国外开源模型 |
| 模型规格 | 从 0.6B 到 235B 全覆盖,适配各种硬件 |
| 量化支持 | Ollama 提供多种量化版本(Q4_0/Q8_0 等),内存友好 |
| 上下文长度 | 最高支持 128K-256K token,处理长文档无压力 |
| 多模态能力 | Qwen3.5 支持图像理解,可处理截图、图片等 |
1.2 Mac 硬件选型指南
在 Mac 上跑 Qwen,内存(统一内存)是决定性因素。以下是基于实测的硬件建议:
| Mac 内存 | 推荐模型及量化 | 文件大小 | 适用场景 |
|---|---|---|---|
| 8GB | Qwen2.5 7B (Q4_0) / Qwen3 4B (Q4_0) | 4-5GB | 轻量对话、文件整理、基础问答 |
| 16GB | Qwen2.5 7B (Q8_0) / Qwen3.5 9B (Q4_0) | 5-9GB | 复杂推理、代码生成、中等上下文 |
| 24-32GB | Qwen3.5 14B (Q4_0) / 35B (Q4_0) | 8-18GB | 长文本处理、多模态任务、专业应用 |
| 64GB+ | Qwen3 72B (Q4_0) / 235B MoE | 37GB+ | 科研、全场景覆盖 |
小知识:量化版本中,Q4_0 是 4-bit 量化,文件最小、速度最快,适合内存有限的设备;Q8_0 是 8-bit 量化,在速度和精度间取得平衡。
二、Ollama 部署 Qwen 全流程
2.1 安装 Ollama
# 使用 Homebrew 安装(推荐)
brew install ollama
# 或从官网下载安装包
# 访问 https://ollama.com/download 下载 macOS 版本
# 启动 Ollama 服务(后台运行)
ollama serve
# 验证安装
ollama --version
# 应显示 0.5.0 或更高
设置开机自启:

