Llama 3 本地部署指南
背景介绍
Meta 于 4 月 18 日宣布开源 Llama 3,该模型在多项评测基准中表现优异,部分任务优于 Llama 2-70B。相比 Llama 2,Llama 3 采用了监督微调 (SFT)、近端策略优化 (PPO) 和直接策略优化 (DPO) 等先进指令调优技术,并增强了安全性工具。
核心优势
- 长文本支持:支持 8k 上下文窗口。
- 训练规模:使用超过 15T tokens 进行训练。
- 性能表现:在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的比较中占据优势。
- 资源优化:通过量化技术,70B 参数模型可显著降低存储需求。
部署方案
为了降低部署难度,推荐使用 Ollama 作为后端模型管理工具,配合 Open WebUI 提供前端交互界面。
前置条件
- 操作系统:Linux / macOS / Windows (WSL2)
- 硬件建议:至少 16GB 内存,推荐 NVIDIA GPU
- 软件依赖:Docker, Docker Compose
步骤一:启动 Ollama 服务
创建目录并拉取镜像:
mkdir -p ollama-data
docker run -d --name ollama -v ollama-data:/root/.ollama -p 11434:11434 ollama/ollama
下载 Llama 3 模型(以 70B 量化版为例):
docker exec -it ollama ollama pull llama3:70b-q4_0
步骤二:启动 Open WebUI
使用 Docker Compose 启动前端界面:
version: '3'
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://host.docker.internal:11434
volumes:
- open-webui-data:/app/backend/data
depends_on:
- ollama
保存为 docker-compose.yml 后执行:
docker compose up -d


