本地部署 Llama3 8B/70B 大模型完整指南

Llama3 是 Meta 公司最新发布的大型语言模型系列，在开源社区引起了广泛关注。特别是其 8B（80 亿参数）版本，在多项基准测试中性能已超越 GPT-3.5，且由于采用开源协议，用户可以在自己的硬件环境下进行私有化部署，实现数据不出本地的 AI 应用。

本文详细介绍如何在个人电脑上部署 Llama3，包括环境准备、Ollama 安装、Docker 配置以及 Open WebUI 的搭建与使用。

一、硬件与环境要求

很多读者担心本地部署对硬件要求过高，实际上根据模型量化级别不同，需求有所差异。对于 Llama3-8B 模型，建议配置如下：

GPU：NVIDIA 显卡显存建议 8GB 起步（如 RTX 4060），支持 CUDA 加速。若仅用 CPU 运行，速度会显著降低，但可行。
CPU：建议多核处理器，如 i9-12900HX 或同等性能以上。
内存 (RAM)：建议 32GB 系统内存，以保证模型加载和推理流畅。
存储：预留至少 20GB 可用空间用于下载模型文件和镜像。

注意：Llama3-70B 模型对显存要求极高，建议配备双卡或多卡服务器（如 A100/H100）或使用高量化等级（如 Q4_K_M）在消费级显卡上尝试，但体验可能受限。

二、安装 Ollama

Ollama 是一个轻量级的工具，用于在本地运行大型语言模型，支持 Windows、macOS 和 Linux。

1. 下载与安装

访问 Ollama 官网下载对应系统的安装包。Windows 用户直接下载 .exe 文件。

双击下载的 .exe 文件。
点击 Install 开始安装。
安装完成后，右下角任务栏会出现 Ollama 图标，表示服务已启动。

2. 验证安装

打开终端（Terminal 或 CMD），输入以下命令检查版本：

ollama --version

如果输出版本号，说明安装成功。

三、配置 WSL 与 Docker Desktop

为了获得更好的容器运行体验，建议在 Windows 上启用 WSL2 并安装 Docker Desktop。

1. 启用 WSL 功能

点击 Windows 搜索栏，输入'启用或关闭 Windows 功能'。
在弹出的窗口中，勾选'适用于 Linux 的 Windows 子系统'（WSL）。
点击确定，系统会自动配置并提示重启电脑。
重启后，WSL 环境即就绪。

2. 安装 Docker Desktop

从 Docker 官网下载 Docker Desktop for Windows 安装包。
运行安装程序，按照向导完成安装。
安装过程中确保勾选'使用 WSL2 后端'。
重启电脑后启动 Docker Desktop。
等待底部状态栏显示'Docker Desktop is running'，表示服务正常。

注意：首次启动可能需要注册账号，若仅需本地开发可跳过登录步骤。

四、部署 Open WebUI

Open WebUI 是一个基于 Web 的界面，允许用户通过浏览器与 Ollama 交互，提供类似 ChatGPT 的体验。

1. 启动 WebUI 容器

打开 PowerShell 或 CMD，复制以下命令运行。该命令将拉取镜像并映射端口。

GPU 模式（推荐）：

docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

本地部署 Llama3 8B/70B 大模型完整指南