简介
Meta 近期发布了 Llama 3.1 系列模型,包含 8B、70B 和 405B 三个版本。从评测数据来看,超大杯版本在多项基准测试中已能媲美 GPT-4 Omni 和 Claude 3.5 Sonnet 等闭源模型。开源大模型的进步使得本地部署成为可能,既保护隐私又能低成本使用。
本文将详细介绍如何在本地环境中使用 Ollama 运行 Llama 3.1 模型,并配合 OpenWebUI 构建图形化聊天界面,实现类似 ChatGPT 的交互体验。
环境要求
在开始部署前,请确保您的机器满足以下基本要求:
- 操作系统:Windows 10/11, macOS (Intel/Apple Silicon), Linux (Ubuntu/CentOS 等)
- 内存 (RAM):
- 8B 模型建议至少 8GB 可用内存
- 70B 模型建议至少 32GB 可用内存
- 405B 模型建议至少 128GB 可用内存
- 存储:根据模型大小预留空间(8B 约需 5GB,405B 约需 230GB)
- 显卡 (GPU):推荐使用 NVIDIA 显卡以加速推理,但 CPU 模式也可运行(速度较慢)
安装 Ollama
Ollama 是一个专为本地运行大型语言模型设计的工具,支持多种主流开源模型。
Windows 用户
- 访问 Ollama 官网下载 Windows 安装包。
- 双击运行安装程序,按照向导完成安装。
- 安装完成后,系统托盘会出现 Ollama 图标,表示服务已在后台运行。
macOS 用户
- 访问 Ollama 官网下载 macOS 安装包。
- 将应用拖入应用程序文件夹。
- 首次启动时允许网络访问权限。
Linux 用户
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,检查服务状态:
systemctl status ollama
下载并运行 Llama 3.1
Ollama 通过命令行管理模型。打开终端执行以下命令拉取并运行模型:
ollama run llama3.1
该命令会自动下载默认版本(通常是 8B)。如需指定其他版本,可使用完整标签名:
# 下载 70B 版本
ollama run llama3.1:70b
# 下载量化版本(节省显存)
ollama run llama3.1:8b-q4_0
下载完成后,即可在终端进行对话。输入问题后按 Enter 发送,模型会流式输出回答。
搭建 Web 界面
虽然终端交互方便,但图形化界面更适合日常使用和调试。我们使用 OpenWebUI 来提供 Web 前端。
前置条件
确保已安装 Docker 和 Docker Compose。
部署 OpenWebUI
使用 Docker 容器运行 OpenWebUI 是最便捷的方式。以下是标准部署命令:
docker run -d \
--name open-webui \
--network host \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main


