想自己折腾一个离线 ChatGPT?用 Ollama 搭配 Open WebUI,几行命令就能在本地跑起大模型,数据不出机器,也不用花钱买 API。我试了一圈 DeepSeek、LLaMA 这几个开源模型,把部署步骤和踩过的坑整理了一下,希望对你有用。
整体架构
一共就三个组件:
- Ollama:负责加载模型、推理,端口 11434
- Open WebUI:仿 ChatGPT 的聊天界面,端口 8080
- 模型文件:比如 deepseek-r1:7b,实际是 Ollama 拉下来的 GGUF 文件
通信很简单:Open WebUI 把请求发给 Ollama,Ollama 跑模型返回结果。
环境需求
内存是硬门槛,模型越大越吃内存。我自己的机器 16GB,跑 7B 模型很流畅,14B 就有点吃力了。
| 模型规模 | 最低内存 | 推荐内存 | 最低显存(可选) |
|---|---|---|---|
| 7B | 8GB | 16GB | 6GB |
| 14B | 16GB | 32GB | 12GB |
| 70B | 64GB | 128GB | 48GB |
软件方面只要有 Docker 就行。先确认一下:
docker --version
没装的话,Windows/Mac 去官网下载 Docker Desktop,Ubuntu 直接 sudo apt install docker.io docker-compose。
部署 Ollama
两种方式,新手直接装二进制文件,省事;玩容器的话用 Docker,方便管理。
直接安装(Windows / Linux / macOS)
Windows:去 ollama.com/download 下安装包,一路下一步。然后用命令行验证:
ollama --version
# 输出类似:ollama version is 0.1.27
Linux 和 macOS 用一键脚本:
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
Docker 部署(适合生产环境)
先拉镜像,把模型目录挂载出来防止容器删了模型也没了:
docker pull ollama/ollama:latest
mkdir -p ~/ollama-data
docker run -d \
--name ollama \
--restart unless-stopped \
-p 11434:11434 \
-v ~/ollama-data:/root/.ollama \
ollama/ollama:latest
检查下起了没:
docker ps | grep ollama
再测一下 API:
curl http://localhost:11434/api/tags
# 正常的话返回 {"models":[]}
下载模型
选哪个模型看自己的需求,我给几个常用的对比:

