本地部署 AI 助手实战:Ollama + Open WebUI 构建私有知识库
大模型已经从新奇玩意儿变成了日常生产力工具,但直接使用云端服务往往面临数据隐私、网络依赖和费用限制等现实问题。在本地搭建一套支持知识库的 AI 助手,能让你的数据完全不出内网,断网也能随时调用'第二大脑'。
一、系统架构与核心组件
我们要搭建的系统本质上是一个 RAG(检索增强生成)应用。流程大致如下:用户通过浏览器提问 -> 系统向量化检索本地文档 -> 将结果与问题组合输入大模型 -> 生成回答。
核心组件包括:
- Ollama:本地模型运行时,负责加载和调度大模型及嵌入模型,提供统一的 API。
- Qwen2.5 / DeepSeek-R1:作为对话'大脑',处理自然语言理解与生成。
- 嵌入模型(Embedding):如
nomic-embed-text或bge-m3,负责将文本转换为向量用于检索。 - Open WebUI:类 ChatGPT 的 Web 界面,支持多轮对话、文档上传及知识库管理。
二、硬件与环境准备
1. 硬件建议
| 场景 | 推荐配置 | 说明 |
|---|---|---|
| 入门体验 | 16GB 内存 + RTX 3060/4060(8GB+ 显存) | 可跑 7B~13B INT4 量化模型 |
| 舒适使用 | 32GB 内存 + RTX 4070/4090(12GB+ 显存) | 可跑 14B~32B 量化模型,并发更稳 |
| Mac 用户 | M1/M2/M3,16GB+ 统一内存 | Apple Silicon 对推理优化很好 |
经验值:7B 参数 INT4 模型约需 4~6GB 显存,13B 需 8~10GB,32B 需 16GB+。
2. 软件环境
- 操作系统:Windows 10/11、macOS 或主流 Linux 发行版。
- Docker:推荐使用 Docker Desktop(Win/Mac)或 Docker Engine + Compose(Linux)。
- Ollama:从官网下载安装即可。
- NVIDIA 驱动:若使用 N 卡加速,需确保驱动和 CUDA 版本匹配(Ollama 通常会自动检测)。
三、部署步骤详解
1. 安装 Ollama 并运行模型
以 Windows 为例,下载官方安装包后一路'下一步'即可。安装完成后打开命令行验证:
ollama -v
看到版本号即表示成功。接着拉取一个对话模型,比如 Qwen2.5:
# 拉取模型
ollama pull qwen2.5:7b-instruct
# 运行模型进入交互模式
ollama run qwen2.5:7b-instruct
首次运行会自动下载模型文件(约 4~5GB),等待完成后即可直接输入问题测试。
2. 用 Docker 部署 Open WebUI
如果已安装 Docker,可直接启动容器。假设 Ollama 在本机 11434 端口,执行以下命令:
docker run -d \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main


