MacBook 部署大模型：Ollama 与 llama.cpp 离线方案 | 极客日志

Shell / BashAI算法

MacBook 部署大模型：Ollama 与 llama.cpp 离线方案

综述由AI生成介绍在新款 MacBook（Apple Silicon）上部署本地大模型的两种方案。方案一使用 Ollama，通过 Homebrew 一键安装，适合新手快速体验 Llama 3、Qwen 等模型；方案二使用 llama.cpp，需编译源码，支持 GGUF 格式，性能更极致但操作复杂。文章详细列出了环境要求、安装步骤、常见避坑点（如内存不足、端口冲突、Metal 加速配置）及离线使用配置。两者均支持完全离线运行，用户可根据自身需求选择合适方案进行本地化 AI 部署。

PentesterX发布于 2026/4/6更新于 2026/5/2329 浏览

MacBook 部署大模型：Ollama 与 llama.cpp 离线方案

前置环境确认

在部署前需完成以下环境检查，避免后续出现兼容性问题：

硬件要求：搭载 Apple Silicon 芯片（M1/M2/M3 系列）的 MacBook，内存≥16GB（建议 32GB 以上）
系统版本：macOS 13.0（Ventura）或更高版本
软件依赖：已安装 Homebrew 4.0+（用于快速安装工具链）

若未安装 Homebrew，可执行以下命令一键安装：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

方案一：Ollama 一键部署（推荐）

Ollama 是专为本地大模型设计的轻量级部署工具，支持一键拉取、运行多种开源大模型，对 Apple Silicon 芯片做了深度优化。

1. 安装 Ollama

执行以下 Homebrew 命令完成安装：

brew install ollama

安装完成后启动 Ollama 服务：

ollama serve

预期输出：服务启动后会显示 Listening on 127.0.0.1:11434 表示服务正常运行

2. 拉取并运行大模型

Ollama 内置了模型仓库，可直接拉取主流开源模型，以下是常用模型的部署命令：

Llama 3 7B（平衡性能与效果的入门选择）

ollama run llama3

Mistral 7B（轻量化高性能模型）

ollama run mistral

Qwen 7B（中文优化模型）

ollama run qwen

首次运行会自动下载模型文件，下载速度取决于网络环境，模型文件默认存储在 ~/.ollama/models 目录

3. 核心避坑点

内存不足问题：运行 7B 模型需至少 8GB 可用内存，若内存不足，可通过添加量化参数启动 4-bit 量化版本：

ollama run llama3:7b-q4_0

服务端口冲突：若 11434 端口被占用，可通过修改环境变量指定新端口：

OLLAMA_HOST=127.0.0.1:11435 ollama serve

模型下载失败：可手动下载模型文件后放置到 ~/.ollama/models/blobs 目录，再执行 ollama create -f Modelfile 导入模型

方案二：llama.cpp 手动部署（进阶）

llama.cpp 是纯 C++ 实现的大模型推理框架，极致轻量化，适合对性能有极致要求的场景，可直接运行 GGUF 格式的量化模型。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

./main --help

wget https://huggingface.co/Qwen/Qwen-7B-Chat-GGUF/resolve/main/qwen-7b-chat-q4_0.gguf

./main -m qwen-7b-chat-q4_0.gguf -c 4096 -n 512 --color --interactive

make clean && make LLAMA_METAL=1

python3 convert.py --outfile model.gguf --quantize q4_0

方案	优点	缺点	适用场景
Ollama	一键部署、操作简单、支持多模型管理	自定义参数较少	快速部署、日常对话、新手用户
llama.cpp	性能极致、高度可定制、资源占用低	操作复杂、需手动管理模型	性能优化、嵌入式场景、进阶用户

MacBook 部署大模型：Ollama 与 llama.cpp 离线方案

MacBook 部署大模型：Ollama 与 llama.cpp 离线方案

前置环境确认

方案一：Ollama 一键部署（推荐）

1. 安装 Ollama

2. 拉取并运行大模型

3. 核心避坑点

方案二：llama.cpp 手动部署（进阶）

更多推荐文章

相关免费在线工具

1. 安装 llama.cpp

2. 下载 GGUF 格式模型

3. 启动模型推理

4. 核心避坑点

离线使用配置

性能对比与场景选择

总结

更多推荐文章

相关免费在线工具

MacBook 部署大模型：Ollama 与 llama.cpp 离线方案

MacBook 部署大模型：Ollama 与 llama.cpp 离线方案

前置环境确认

方案一：Ollama 一键部署（推荐）

1. 安装 Ollama

2. 拉取并运行大模型

3. 核心避坑点

方案二：llama.cpp 手动部署（进阶）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. 安装 llama.cpp

2. 下载 GGUF 格式模型

3. 启动模型推理

4. 核心避坑点

离线使用配置

性能对比与场景选择

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具