本地私有化部署 Llama3 8B/70B 大模型方法
概述
Llama3 是 Meta 发布的开源大语言模型系列,包含 8B 和 70B 等版本。相比闭源模型,Llama3 允许用户在本地进行私有化部署,保障数据隐私并降低调用成本。本文将介绍三种主流的本地部署方案,重点讲解基于 Docker 的 Ollama + Open WebUI 组合方式,支持 CPU 和 GPU 环境。
硬件要求
部署前请确认硬件配置:
- Llama3-8B: 建议至少 16GB 内存,若使用量化版本可在 8GB 显存下运行。
- Llama3-70B: 建议至少 64GB 内存,推荐 24GB 及以上显存的显卡以加速推理。
- 操作系统: Windows, macOS, Linux 均可。
部署方案一:GPT4All
GPT4All 是一款轻量级桌面应用,适合低配置用户。它内置了多种模型,支持在 CPU 上运行。
- 访问官网下载客户端。
- 安装后选择模型库中的 Llama3 版本。
- 启动即可对话,无需配置命令行。
部署方案二:LM Studio
LM Studio 提供图形化界面,支持下载和管理多个模型。
- 下载安装 LM Studio。
- 在搜索栏输入 Llama3。
- 选择合适量化的模型文件(如 GGUF 格式)。
- 加载模型后通过右侧聊天窗口交互。
部署方案三:Ollama + Open WebUI(推荐)
此方案适合需要多平台支持及 API 集成的场景。Open WebUI 提供了类似 ChatGPT 的网页界面。
前置准备
- 确保系统已安装 Docker Desktop。
- 开启 WSL2(Windows 用户)或确保 Docker 服务运行正常。
- 确认 NVIDIA 驱动已安装(若使用 GPU)。
步骤 1:安装 Ollama
首先需要在本地安装 Ollama 服务。
# Linux/Mac
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# 直接下载安装包运行
步骤 2:拉取模型
在终端执行以下命令下载 Llama3 模型:
ollama pull llama3
ollama pull llama3:70b # 如需 70B 版本
步骤 3:部署 Open WebUI
使用 Docker 容器运行 Open WebUI,连接本地的 Ollama 服务。
CPU 模式运行
适用于无独立显卡或仅使用 CPU 的场景。
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
GPU 模式运行
适用于拥有 NVIDIA 显卡的用户,启用 GPU 加速。
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama


