在本地跑起大模型：Ollama + Open WebUI 搭建记录 | 极客日志

Shell / BashAI

在本地跑起大模型：Ollama + Open WebUI 搭建记录

通过 Docker 或直接安装的方式，在本地部署 Ollama 和 Open WebUI，拉取 deepseek-r1、llama3 等开源模型，实现离线对话和 API 调用。覆盖了硬件要求、模型选择、GPU 加速、自定义参数以及常见问题的排查思路。

邪神洛基发布于 2026/6/27更新于 2026/7/12 浏览

想自己折腾一个离线 ChatGPT？用 Ollama 搭配 Open WebUI，几行命令就能在本地跑起大模型，数据不出机器，也不用花钱买 API。我试了一圈 DeepSeek、LLaMA 这几个开源模型，把部署步骤和踩过的坑整理了一下，希望对你有用。

整体架构

一共就三个组件：

Ollama：负责加载模型、推理，端口 11434
Open WebUI：仿 ChatGPT 的聊天界面，端口 8080
模型文件：比如 deepseek-r1:7b，实际是 Ollama 拉下来的 GGUF 文件

通信很简单：Open WebUI 把请求发给 Ollama，Ollama 跑模型返回结果。

环境需求

内存是硬门槛，模型越大越吃内存。我自己的机器 16GB，跑 7B 模型很流畅，14B 就有点吃力了。

模型规模	最低内存	推荐内存	最低显存（可选）
7B	8GB	16GB	6GB
14B	16GB	32GB	12GB
70B	64GB	128GB	48GB

软件方面只要有 Docker 就行。先确认一下：

docker --version

没装的话，Windows/Mac 去官网下载 Docker Desktop，Ubuntu 直接 sudo apt install docker.io docker-compose。

部署 Ollama

两种方式，新手直接装二进制文件，省事；玩容器的话用 Docker，方便管理。

直接安装（Windows / Linux / macOS）

Windows：去 ollama.com/download 下安装包，一路下一步。然后用命令行验证：

ollama --version
# 输出类似：ollama version is 0.1.27

Linux 和 macOS 用一键脚本：

curl -fsSL https://ollama.com/install.sh | sh
ollama --version

Docker 部署（适合生产环境）

先拉镜像，把模型目录挂载出来防止容器删了模型也没了：

docker pull ollama/ollama:latest
mkdir -p ~/ollama-data
docker run -d \
  --name ollama \
  --restart unless-stopped \
  -p 11434:11434 \
  -v ~/ollama-data:/root/.ollama \
  ollama/ollama:latest

检查下起了没：

docker ps | grep ollama

再测一下 API：

curl http://localhost:11434/api/tags
# 正常的话返回 {"models":[]}

下载模型

选哪个模型看自己的需求，我给几个常用的对比：

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

模型	大小	特点
llama3.2:3b	~2GB	轻量，低配机器也能跑
llama3.1:8b	~4.7GB	平衡型
deepseek-r1:7b	~4GB	中文能力强，推理效果好
qwen2.5:7b	~4.5GB	阿里开源，中文友好
mistral:7b	~4GB	Mistral AI 出品，英文优秀

ollama pull deepseek-r1:7b

ollama run deepseek-r1:7b
>>> 你好，请用中文介绍一下你自己
我是 DeepSeek，一个由深度求索公司开发的大语言模型...

curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:7b", "prompt": "请用一句话介绍 Python 语言", "stream": false }'

docker run -d \
  --name open-webui \
  --restart unless-stopped \
  -p 8080:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v ~/open-webui-data:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

docker run -d \
  --name open-webui \
  --restart unless-stopped \
  -p 8080:8080 \
  --network host \
  -e OLLAMA_BASE_URL=http://127.0.0.1:11434 \
  -v ~/open-webui-data:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

mkdir -p ~/ollama-stack && cd ~/ollama-stack
cat > docker-compose.yml << 'EOF'
version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ./ollama-data:/root/.ollama
    environment:
      - TZ=Asia/Shanghai
    deploy:
      resources:
        reservations:
          memory: 8G
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "8080:8080"
    volumes:
      - ./open-webui-data:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
      - TZ=Asia/Shanghai
    depends_on:
      - ollama
volumes:
  ollama-data:
  open-webui-data:
EOF

docker compose up -d

docker exec -it ollama ollama pull deepseek-r1:7b

docker run --rm --gpus all nvidia/cuda:11.8-base nvidia-smi

deploy:
  resources:
    reservations:
      devices:
        - driver: nvidia
          count: all
          capabilities: [gpu]

cat > Modelfile << 'EOF'
FROM deepseek-r1:7b
SYSTEM 你是一个专业的 AI 助手，擅长中文对话。
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
PARAMETER top_p 0.9
PARAMETER stop "<|im_end|>"
PARAMETER stop "<|im_start|>"
EOF
ollama create my-assistant -f Modelfile
ollama run my-assistant

import requests

def chat_with_ollama(prompt, model="deepseek-r1:7b"):
    url = "http://localhost:11434/api/chat"
    payload = {
        "model": model,
        "messages": [{"role": "user", "content": prompt}],
        "stream": False
    }
    resp = requests.post(url, json=payload).json()
    return resp["message"]["content"]

# 调用
print(chat_with_ollama("什么是机器学习？"))

在本地跑起大模型：Ollama + Open WebUI 搭建记录

整体架构

环境需求

部署 Ollama

下载模型

更多推荐文章

相关免费在线工具

安装 Open WebUI

Docker Compose 一把梭

一些你可能需要的配置

常见问题

收尾

更多推荐文章

相关免费在线工具

在本地跑起大模型：Ollama + Open WebUI 搭建记录

整体架构

环境需求

部署 Ollama

下载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

安装 Open WebUI

Docker Compose 一把梭

一些你可能需要的配置

常见问题

收尾

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具