macOS 本地部署 Llama3:Ollama 与 Enchanted 实战指南
2024 年 4 月,Meta 正式开源了大语言模型 Llama3。该模型在多项基准测试中表现优异,显著提升了推理能力和指令遵循水平。为了在保护隐私的前提下体验这一强大的开源模型,我们可以在本地环境中进行部署。本文将详细介绍如何在 macOS 系统上,利用 Ollama 作为后端服务,配合 Enchanted 图形界面应用,完成 Llama3 的本地化部署与使用。
一、环境准备与硬件要求
在开始部署之前,请确保您的 Mac 设备满足以下基本要求。Llama3 对内存(RAM)和 GPU 加速有一定需求,尤其是运行较大参数量的版本时。
- 操作系统:macOS 12.0 (Monterey) 或更高版本。
- 处理器:
- Apple Silicon (M1/M2/M3 系列):性能最佳,支持 Metal 加速。
- Intel 芯片:可运行,但速度较慢,建议至少 8 核 CPU。
- 内存:
- 推荐 16GB 及以上。若仅运行 8B 量化版本,8GB 内存勉强可用,但多任务时会卡顿。
- 32GB 及以上可流畅运行 70B 模型或同时加载多个上下文。
- 存储空间:模型文件占用空间较大,建议预留 20GB 以上空闲 SSD 空间。
二、安装 Ollama 服务
Ollama 是一个用于运行大型语言模型的轻量级工具,它简化了模型的下载和管理过程,并提供了 REST API 接口。
1. 获取安装包
访问 Ollama 官方网站下载 macOS 版本的安装包。推荐使用 DMG 格式的安装包,或者通过 Homebrew 进行安装。
方法 A:DMG 安装
- 下载
.dmg文件。 - 打开镜像文件,将 Ollama 图标拖入应用程序文件夹。
- 首次启动时,系统可能会提示无法验证开发者,需在'系统设置'->'隐私与安全性'中允许运行。
方法 B:Homebrew 安装 如果您已配置 Homebrew,可在终端执行:
brew install ollama
2. 验证安装
安装完成后,打开终端输入以下命令检查版本:
ollama --version
如果显示版本号,说明安装成功。此时 Ollama 服务通常会自动在后台启动,并在菜单栏显示图标。
三、下载与运行 Llama3 模型
Ollama 支持多种模型,包括 Llama3 的不同量化版本。量化版本(如 Q4_K_M)在保持较高智能水平的同时,大幅减少了显存占用。
1. 拉取模型
在终端中执行以下命令拉取 Llama3 模型:
ollama run llama3
首次运行时,系统会自动从服务器下载模型权重文件。根据网络状况,下载时间可能在几分钟到几十分钟不等。下载过程中会显示进度条和文件大小。
2. 模型管理
除了默认模型,您还可以查看已下载的模型列表:
ollama list
如果需要删除不需要的模型以释放空间,可以使用:
ollama rm llama3
3. 交互模式
下载完成后,终端将进入交互式对话模式。您可以直接输入问题,模型会即时生成回复。 示例交互:
>>>
I am LLaMA, an AI assistant developed by Meta AI...


