本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战指南

一文讲清楚：要选哪些工具、需要什么环境、整体架构长什么样，以及一步步实现到能用的程度。

一、为什么要在本地搭一个 AI 助手？

过去一年，大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT / 文心一言 / 通义千问，会碰到几个很现实的问题：

数据隐私：公司内部文档、个人笔记、聊天记录，你敢全部塞到线上吗？
网络依赖：在飞机上、高铁里，或者公司内网严格管控时，在线 AI 直接'失联'。
额度与费用：免费额度有限，稍微重度一点就要付费，而且你也不知道自己的数据会不会被拿去训练。

本地部署一套'AI + 知识库'的好处就非常直观：

数据完全不出本地，满足隐私合规要求。
断网也能用，随时随地调取你的'第二大脑'。
可定制：可以给团队搭一个'企业 FAQ 助手'，给自己搭一个'读书笔记助手'。

本系列的目标，就是带你从零开始，在本地搭一个类似 ChatGPT 的 Web 界面，并且支持上传文档构建知识库（RAG）的 AI 助手。

二、整体架构：我们要搭的是一个什么样的系统？

用一个简单的架构图来概括一下我们要做的事情：

调用 -> 浏览器 Web UI -> Ollama 模型服务 -> 本地大模型 Qwen2.5
提问 -> 嵌入模型 -> 向量知识库 -> 检索结果 -> 回答

核心组件：

Ollama：本地模型运行时，负责加载和调度大模型、嵌入模型，提供统一的 API。
Qwen2.5 系列 / DeepSeek-R1 等：本地对话大模型，作为'大脑'。
嵌入模型（Embedding）：把文本转成向量，用于知识库检索，比如 nomic-embed-text、bge-m3 等。
向量数据库 / 向量索引：存储文档向量，负责相似度检索（Open WebUI 自带，也可以外接 Chroma、Milvus 等）。
Open WebUI：类 ChatGPT 的 Web 界面，支持对话、上传文档、配置知识库。

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

对比直接用 transformers + PyTorch 自己搭一套推理服务，Ollama 的优势非常明显：

跨平台：Windows / macOS / Linux 都有官方安装包，安装就是下一步下一步。
一键拉模型：ollama pull qwen2.5:7b-instruct 就能拉取并运行模型，不需要自己处理 GGUF、量化、CUDA 等一堆细节。
统一 API：默认在本地 11434 端口提供 REST API，兼容 OpenAI 调用方式，方便后续写代码集成。
资源友好：支持 CPU / Apple Silicon GPU / NVIDIA GPU，自动检测并使用可用硬件加速。

场景	推荐配置	说明
入门体验	16GB 内存 + RTX 3060/4060（8GB+ 显存）	可以跑 7B～13B 的 INT4 量化模型
舒服使用	32GB 内存 + RTX 4070/4090（12GB+ 显存）	可以跑 14B～32B 量化模型，并发更稳
Mac 用户	M1/M2/M3，16GB+ 统一内存	Apple Silicon 对推理优化很好，体验接近中档 GPU

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战指南

一、为什么要在本地搭一个 AI 助手？

二、整体架构：我们要搭的是一个什么样的系统？

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

更多推荐文章

相关免费在线工具

3.2 Web 界面：Open WebUI

3.3 模型选择：Qwen2.5 / DeepSeek-R1 等

四、硬件与系统环境：你的电脑够不够格？

4.1 硬件建议（以消费级 PC 为例）

4.2 系统与软件环境

五、部署路线图：我们会分几步走？

六、第一步：安装 Ollama 并跑通本地模型

6.1 安装 Ollama

6.2 拉取并运行一个对话模型

七、第二步：用 Docker 部署 Open WebUI

7.1 安装 Docker

7.2 启动 Open WebUI 容器

八、第三步：在 WebUI 里连接本地模型

九、第四步：搭建本地知识库（RAG）

9.1 RAG 是什么，为什么需要它？

9.2 准备嵌入模型

9.3 在 Open WebUI 里创建知识库

十、第五步：用 Python 调用本地模型（可选）

10.1 简单示例：对话

10.2 简单示例：文本嵌入

十一、进阶方向：这个项目还能怎么玩？

十二、小结

更多推荐文章

相关免费在线工具

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战指南

一、为什么要在本地搭一个 AI 助手？

二、整体架构：我们要搭的是一个什么样的系统？

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 Web 界面：Open WebUI

3.3 模型选择：Qwen2.5 / DeepSeek-R1 等

四、硬件与系统环境：你的电脑够不够格？

4.1 硬件建议（以消费级 PC 为例）

4.2 系统与软件环境

五、部署路线图：我们会分几步走？

六、第一步：安装 Ollama 并跑通本地模型

6.1 安装 Ollama

6.2 拉取并运行一个对话模型

七、第二步：用 Docker 部署 Open WebUI

7.1 安装 Docker

7.2 启动 Open WebUI 容器

八、第三步：在 WebUI 里连接本地模型

九、第四步：搭建本地知识库（RAG）

9.1 RAG 是什么，为什么需要它？

9.2 准备嵌入模型

9.3 在 Open WebUI 里创建知识库

十、第五步：用 Python 调用本地模型（可选）

10.1 简单示例：对话

10.2 简单示例：文本嵌入

十一、进阶方向：这个项目还能怎么玩？

十二、小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具