在 macOS 上通过 Ollama 和 Enchanted 本地部署 Llama3

背景介绍

2024 年 4 月，Meta 正式开源了大语言模型 Llama3。该模型在多项基准测试中表现优异，超越了当时现有的许多先进模型。为了在个人设备上体验这一强大的开源模型，Ollama 社区迅速更新以支持 Llama3。本文将详细介绍如何在 macOS 系统上，利用 Ollama 命令行工具和 Enchanted 图形界面应用，完成 Llama3 的本地部署与交互。

本地部署大模型具有显著优势：数据完全在本地处理，无需上传至云端，有效保障隐私安全；无需依赖外部网络连接，可离线使用；能够根据硬件配置灵活调整资源占用。

环境准备

硬件要求

本教程基于以下硬件环境编写，实际运行效果取决于具体配置：

设备：MacBook Pro (2019 款)
CPU：Intel Core i7/i9 (8 Core)
内存：16GB Unified Memory
操作系统：macOS Ventura 或更高版本

注意：Llama3-8B 模型在 Intel Mac 上运行可能会受到内存限制影响推理速度。若使用 Apple Silicon (M1/M2/M3) 芯片，由于统一内存架构的优势，性能会有显著提升。建议至少预留 16GB 内存用于模型加载，推荐 32GB 以获得流畅体验。

软件依赖

Homebrew (可选，用于管理依赖)
Terminal (终端)
App Store (用于下载 Enchanted)

安装 Ollama

Ollama 是一个轻量级的本地大模型运行服务，支持 macOS、Linux 和 Windows。它简化了模型的拉取和管理过程。

1. 下载安装包

访问 Ollama 官方网站，选择 macOS 独立安装包进行下载。解压后直接拖入应用程序文件夹即可。

2. 验证安装

安装完成后，打开终端执行以下命令检查版本：

ollama --version

如果显示版本号，说明安装成功。此时命令行通常会提示 ollama run llama2，但我们需要的是 Llama3。

3. 启动服务

Ollama 通常会在后台自动启动守护进程。可以通过以下方式确认服务状态：

ps aux | grep ollama

或者查看菜单栏图标是否亮起。

下载并运行 Llama3

1. 拉取模型

在终端中执行以下命令拉取 Llama3 模型文件。首次运行会自动从服务器下载模型权重，大小约为 4.7GB（取决于量化版本）。

ollama run llama3

下载过程中会显示进度条，包括 manifest 拉取、层验证及写入清单等步骤。网络速度将直接影响下载时间。

2. 模型交互

下载完成后，终端将进入交互式对话模式，提示 Send a message (/? for help)。您可以直接输入问题，例如：

>>> who are you
I am LLaMA, an AI assistant developed by Meta AI that can understand and respond to human input in a conversational manner...

按 Ctrl + D 退出当前会话，或输入 /bye 结束。

3. 常用命令

除了运行模型，Ollama 还提供了一系列管理命令：

在 macOS 上通过 Ollama 和 Enchanted 本地部署 Llama3