Mac 本地大模型部署实战：Ollama 与 ChatBox 配置指南

本文将详细介绍如何在 M1/M2/M3 芯片的 Mac 电脑上部署本地大模型，实现私有的 AI 对话体验。通过 Ollama 管理模型和 ChatBox 提供前端界面，用户可以在本地完成推理，无需联网即可保护隐私。

1. 前提介绍

1.1 硬件要求

型号：MacBook Pro 或 MacBook Air
芯片：Apple Silicon (M1/M2/M3)，越高端性能越好
内存：建议 16GB 及以上（8GB 可运行小模型）
硬盘：建议 256GB 及以上（大模型文件较大）

1.2 软件需求

所有软件均推荐使用 Homebrew 安装，请确保已正确配置 Homebrew。

若未安装 Homebrew，请在终端执行以下命令：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

提示：如遇网络问题导致安装失败，请参考官方文档解决。

1.3 核心组件

Ollama：大模型管理工具，支持运行量化后的 GGUF 格式模型。
大模型：本文以 Qwen:14b 为例，支持中文理解。
ChatBox：基于本地大模型的图形化聊天客户端。

关于 GGUF 格式： GGUF (GPT-Generated Unified Format) 是一种针对大规模机器学习模型设计的二进制格式，由 llama.cpp 团队定义。其优势在于优化了资源消耗，允许在 CPU 上高效运行 LLM，适合消费级设备。

2. 第一步：安装本地大模型管理工具

Ollama 是目前最流行的本地模型运行框架之一。在 Mac 上有多种安装方式，推荐使用 Homebrew Cask 安装。

2.1 安装 Ollama

打开终端，执行以下命令：

brew install ollama --cask

安装成功后，系统启动台中会出现 Ollama 图标，也可通过命令行验证版本：

ollama --version

2.2 启动服务

Ollama 通常作为后台服务运行。首次使用时需手动启动：

ollama serve

启动后，终端会显示监听地址（默认 http://localhost:11434）及 Metal 加速状态信息。

3. 第二步：下载并运行本地大模型

Ollama 支持多种开源模型，包括 Llama 3、Qwen、Mistral 等。中文场景推荐选择通义千问系列。

3.1 拉取模型

在另一个终端窗口中执行以下命令拉取 Qwen 模型：

ollama run qwen:14b

该命令会自动下载模型权重文件（约 8GB），并根据显存/内存情况自动进行量化适配。

3.2 模型交互

下载完成后，可直接在终端进行对话测试：

Mac 本地大模型部署实战：Ollama 与 ChatBox 配置指南