前言
随着大语言模型(LLM)技术的快速发展,越来越多的开发者希望将模型部署在本地环境,以实现数据隐私保护、降低 API 调用成本以及离线使用。本文主要借助两个开源项目 Ollama 和 OpenWebUI,来尝试本地跑通 llama3.1 8b、mistral-nemo 12b 和 qwen2.5 7b 等模型。
对于资源受限的机器,选择合适的模型量化版本至关重要。本文提供的硬件参考配置如下:
- CPU:Apple M2 Max
- 内存:32 GB
一、环境准备
1. 系统要求
- 操作系统:macOS (12+), Linux (Ubuntu 20.04+), Windows (10/11)
- Docker:推荐使用 Docker Desktop 或 Docker Engine 20.10+
- 网络:需能访问 GitHub 及 HuggingFace 镜像源以拉取模型文件
2. 硬件建议
- 显存/内存:运行 7B-8B 模型建议至少 16GB 内存;12B-14B 模型建议 24GB+;70B 模型通常需要专业显卡或极高内存配置。
- 存储:单个模型文件通常在 4GB-50GB 不等,请预留充足空间。
二、安装 Ollama
Ollama 是一个用于运行和管理本地大模型的轻量级工具,支持多种主流架构。
1. 下载与安装
访问 Ollama 官网根据平台下载应用,安装完成后服务通常会自动启动。
2. 拉取模型
安装完成后,通过终端执行命令拉取所需模型。模型库可在 Ollama 官方页面查询。
# 拉取 Llama 3.1 8B
ollama run llama3.1:8b
# 拉取 Qwen 2.5 7B
ollama run qwen2.5:7b
# 拉取 Mistral Nemo 12B
ollama run mistral-nemo:12b
3. 模型管理命令
ollama list:查看已下载的模型列表ollama rm <model>:删除指定模型ollama ps:查看正在运行的模型实例
三、部署 OpenWebUI
OpenWebUI 是一个功能丰富的 Web 界面,可作为 Ollama 的前端交互层,支持对话历史、多模态输入及插件扩展。
1. Docker 部署
由于 Ollama 运行在本地,我们使用 Docker 容器化运行 OpenWebUI。以下命令适用于大多数场景:
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
参数说明:
-p 3000:8080:将容器 8080 端口映射到宿主机的 3000 端口。--add-host:解决容器内访问宿主机 Ollama 服务的网络问题。- :挂载数据卷,持久化用户数据和聊天记录。


