本地部署 Llama3 8B/70B 大模型完整指南
Llama3 是 Meta 公司最新发布的大型语言模型系列,在开源社区引起了广泛关注。特别是其 8B(80 亿参数)版本,在多项基准测试中性能已超越 GPT-3.5,且由于采用开源协议,用户可以在自己的硬件环境下进行私有化部署,实现数据不出本地的 AI 应用。
本文详细介绍如何在个人电脑上部署 Llama3,包括环境准备、Ollama 安装、Docker 配置以及 Open WebUI 的搭建与使用。
一、硬件与环境要求
很多读者担心本地部署对硬件要求过高,实际上根据模型量化级别不同,需求有所差异。对于 Llama3-8B 模型,建议配置如下:
- GPU:NVIDIA 显卡显存建议 8GB 起步(如 RTX 4060),支持 CUDA 加速。若仅用 CPU 运行,速度会显著降低,但可行。
- CPU:建议多核处理器,如 i9-12900HX 或同等性能以上。
- 内存 (RAM):建议 32GB 系统内存,以保证模型加载和推理流畅。
- 存储:预留至少 20GB 可用空间用于下载模型文件和镜像。
注意:Llama3-70B 模型对显存要求极高,建议配备双卡或多卡服务器(如 A100/H100)或使用高量化等级(如 Q4_K_M)在消费级显卡上尝试,但体验可能受限。
二、安装 Ollama
Ollama 是一个轻量级的工具,用于在本地运行大型语言模型,支持 Windows、macOS 和 Linux。
1. 下载与安装
访问 Ollama 官网下载对应系统的安装包。Windows 用户直接下载 .exe 文件。
- 双击下载的
.exe文件。 - 点击
Install开始安装。 - 安装完成后,右下角任务栏会出现 Ollama 图标,表示服务已启动。
2. 验证安装
打开终端(Terminal 或 CMD),输入以下命令检查版本:
ollama --version
如果输出版本号,说明安装成功。
三、配置 WSL 与 Docker Desktop
为了获得更好的容器运行体验,建议在 Windows 上启用 WSL2 并安装 Docker Desktop。
1. 启用 WSL 功能
- 点击 Windows 搜索栏,输入'启用或关闭 Windows 功能'。
- 在弹出的窗口中,勾选'适用于 Linux 的 Windows 子系统'(WSL)。
- 点击确定,系统会自动配置并提示重启电脑。
- 重启后,WSL 环境即就绪。
2. 安装 Docker Desktop
- 从 Docker 官网下载 Docker Desktop for Windows 安装包。
- 运行安装程序,按照向导完成安装。
- 安装过程中确保勾选'使用 WSL2 后端'。
- 重启电脑后启动 Docker Desktop。
- 等待底部状态栏显示'Docker Desktop is running',表示服务正常。
注意:首次启动可能需要注册账号,若仅需本地开发可跳过登录步骤。
四、部署 Open WebUI
Open WebUI 是一个基于 Web 的界面,允许用户通过浏览器与 Ollama 交互,提供类似 ChatGPT 的体验。
1. 启动 WebUI 容器
打开 PowerShell 或 CMD,复制以下命令运行。该命令将拉取镜像并映射端口。
GPU 模式(推荐):
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama


