本地部署 Llama3：基于 Ollama 的离线运行指南

4 月 18 日，Meta 在官方博客官宣了 Llama3，标志着人工智能领域迈向了一个重要的飞跃。经过体验，Llama3 8B 效果已经超越 GPT-3.5，最为重要的是，Llama3 是开源的，我们可以自己部署！

本文和大家分享一下如何在个人电脑上部署 Llama3，拥有你自己的 GPT-3.5+!

硬件要求

很多读者担心本地部署时个人电脑的硬件配置不够，实际上这种担心是多余的。以 Llama3 8B 版本为例，对内存和显存的要求相对友好。笔者使用的是 MacBook M2 Pro (2023 款)，主要硬件配置如下：

10 核 CPU
16G 内存

对于 Windows 用户，建议至少配备 16GB 内存以及 NVIDIA 显卡（显存 6GB 以上）以获得更好的推理速度。

部署步骤概览

部署流程主要分为以下四个部分：

安装 Ollama 客户端
下载并运行 Llama3 模型
配置 Node.js 环境
部署 WebUI 管理界面

1. 安装 Ollama

Ollama 可以简单理解为客户端，实现和大模型的交互。读者可访问 ollama.com 下载对应操作系统的安装包。

macOS / Linux 安装： 打开终端执行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

Windows 安装： 直接下载安装程序，双击运行。安装完成后界面上会提示 ollama run llama2，不需要执行这条命令，因为我们要安装 llama3。

2. 下载 Llama3

打开新的终端/命令行窗口，执行以下命令：

ollama run llama3

程序会自动下载 Llama3 的模型文件，默认是 8B，也就是 80 亿参数版本，个人电脑完全可以运行。

成功下载模型后会进入交互界面，我们可以直接在终端进行提问。例如输入 who are you?，Llama3 几乎是秒回答。

➜  Projects ollama run llama3
>>> who are you?
I'm LLaMA, a large language model trained by a team of researcher at Meta 
AI. I'm here to chat with you and answer any questions you may have.
...

3. 安装 Node.js

支持 Ollama 的 WebUI 非常多，我们需要一个轻量级的界面来增强交互体验。首先需要确保系统已安装 Node.js。

设置国内 NPM 镜像 官方的 NPM 源国内访问有点慢，推荐国内用户使用腾讯 NPM 源以提升下载速度。

打开终端执行以下命令设置 NPM 使用腾讯源：

npm config set registry http://mirrors.cloud.tencent.com/npm/

4. 部署 WebUI

打开终端，执行以下命令部署 WebUI：

git clone https://github.com/ollama-webui/ollama-webui-lite.git
cd ollama-webui-lite
npm install
npm run dev

提示如下，WebUI 已经在本地 3000 端口进行监听：

本地部署 Llama3：基于 Ollama 的离线运行指南