Llama 3.1 本地部署实战指南
Meta 近期发布了 Llama 3.1 系列模型,包含 8B、70B 和 405B 三个版本。其中超大杯版本在多项基准测试中已能与 GPT-4 Omni、Claude 3.5 Sonnet 等闭源模型分庭抗礼。本文将介绍如何在本地环境中使用 Ollama 运行 Llama 3.1,并结合 OpenWebUI 搭建图形化聊天界面。
环境准备
本教程将使用以下工具:
- Ollama:用于在本地下载和管理大语言模型。
- Docker:用于容器化部署 OpenWebUI 前端界面。
- 操作系统:支持 macOS、Linux 或 Windows(需安装 WSL2)。
安装 Ollama
Ollama 是一个专为本地运行大型语言模型设计的开源工具。
1. 下载安装
访问 Ollama 官网下载对应操作系统的安装包。安装过程为向导式,直接点击'下一步'即可完成。
2. 验证安装
安装完成后,打开终端输入以下命令检查服务状态:
ollama --version
若显示版本号,则说明安装成功。默认情况下,Ollama 会启动一个后台服务监听本地端口。
下载并运行 Llama 3.1
Ollama 提供了丰富的模型库,支持多种架构的模型。
1. 拉取模型
在终端执行以下命令拉取 Llama 3.1 8B 版本(根据硬件配置选择不同量级):
ollama run llama3.1
首次运行会自动下载模型文件。如果网络较慢,建议配置国内镜像加速。
2. 查看模型列表
运行结束后,可使用以下命令查看所有已下载的模型:
ollama list
3. 命令行交互
在终端中即可直接与模型对话。输入提示词后,模型会流式输出回答。
搭建 Web 界面
为了获得更好的交互体验,可以使用 OpenWebUI 搭建 Web 管理界面。
1. 安装 Docker
确保系统已安装 Docker 客户端。Windows 用户建议使用 Docker Desktop,Linux/macOS 用户可通过包管理器安装。
2. 运行 OpenWebUI
使用 Docker 容器运行 OpenWebUI。以下是基础运行命令:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ollama/open-webui
*注:如需使用 NVIDIA GPU 加速,请添加 --gpus all 参数并确保安装了 NVIDIA Container Toolkit。
3. 访问界面
启动成功后,在浏览器访问 http://localhost:3000。首次注册的用户默认为管理员账户,邮箱和密码可自定义设置。
4. 连接模型
登录后,在设置页面添加 Ollama 后端地址(通常为 http://host.docker.internal:11434),即可在 Web 界面中选择并调用本地模型。
常见问题与优化
显存不足
如果运行 70B 或 405B 版本时显存不足,建议优先使用量化版本(如 Q4_K_M)。可在拉取命令中指定量化级别:


