从零开始：在本地搭建一个带知识库的 AI 助手（Ollama + Open WebUI）

一文讲清楚：要选哪些工具、需要什么环境、整体架构长什么样，以及一步步实现到能用的程度。

一、为什么要在本地搭一个 AI 助手？

过去一年，大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT / 文心一言 / 通义千问，会碰到几个很现实的问题：

数据隐私：公司内部文档、个人笔记、聊天记录，你敢全部塞到线上吗？
网络依赖：在飞机上、高铁里，或者公司内网严格管控时，在线 AI 直接'失联'。
额度与费用：免费额度有限，稍微重度一点就要付费，而且你也不知道自己的数据会不会被拿去训练。
本地部署一套 'AI + 知识库' 的好处就非常直观：

数据完全不出本地，满足隐私合规要求。
断网也能用，随时随地调取你的'第二大脑'。
可定制：可以给团队搭一个'企业 FAQ 助手'，给自己搭一个'读书笔记助手'。
本系列文章的目标，就是带你从零开始，在本地搭一个类似 ChatGPT 的 Web 界面，并且支持上传文档构建知识库（RAG）的 AI 助手。

二、整体架构：我们要搭的是一个什么样的系统？

用一个简单的架构图来概括一下我们要做的事情：

调用

上传文档

提问

检索结果

回答

浏览器 Web UI

Ollama 模型服务

本地大模型 Qwen2.5

嵌入模型

向量知识库

问题向量化

构建上下文

核心组件：

Ollama：本地模型运行时，负责加载和调度大模型、嵌入模型，提供统一的 API。
Qwen2.5 系列 / DeepSeek-R1 等：本地对话大模型，作为'大脑'。
嵌入模型（Embedding）：把文本转成向量，用于知识库检索，比如 nomic-embed-text、bge-m3 等。
向量数据库 / 向量索引：存储文档向量，负责相似度检索（Open WebUI 自带，也可以外接 Chroma、Milvus 等）。
Open WebUI：类 ChatGPT 的 Web 界面，支持对话、上传文档、配置知识库。

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

对比直接用 transformers + PyTorch 自己搭一套推理服务，Ollama 的优势非常明显：

跨平台：Windows / macOS / Linux 都有官方安装包，安装就是下一步下一步。
一键拉模型：ollama pull qwen2.5:7b-instruct 就能拉取并运行模型，不需要自己处理 GGUF、量化、CUDA 等一堆细节。
统一 API：默认在本地 11434 端口提供 REST API，兼容 OpenAI 调用方式，方便后续写代码集成。
资源友好：支持 CPU / Apple Silicon GPU / NVIDIA GPU，自动检测并使用可用硬件加速。

实战经验：如果你只是想'先用起来'，而不是做底层研究，Ollama 是目前性价比最高的选择之一。

场景	推荐配置	说明
入门体验	16GB 内存 + RTX 3060/4060（8GB+ 显存）	可以跑 7B～13B 的 INT4 量化模型
舒服使用	32GB 内存 + RTX 4070/4090（12GB+ 显存）	可以跑 14B～32B 量化模型，并发更稳
Mac 用户	M1/M2/M3，16GB+ 统一内存	Apple Silicon 对推理优化很好，体验接近中档 GPU

从零开始：在本地搭建一个带知识库的 AI 助手（Ollama + Open WebUI）

一、为什么要在本地搭一个 AI 助手？

二、整体架构：我们要搭的是一个什么样的系统？

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

更多推荐文章

相关免费在线工具

3.2 Web 界面：Open WebUI

3.3 模型选择：Qwen2.5 / DeepSeek-R1 等

四、硬件与系统环境：你的电脑够不够格？

4.1 硬件建议（以消费级 PC 为例）

4.2 系统与软件环境

五、部署路线图：我们会分几步走？

六、第一步：安装 Ollama 并跑通本地模型

6.1 安装 Ollama

6.2 拉取并运行一个对话模型

第一次运行时，Ollama 会自动下载模型文件（约 4～5GB），等待下载完成即可。

七、第二步：用 Docker 部署 Open WebUI

7.1 安装 Docker

7.2 启动 Open WebUI 容器

八、第三步：在 WebUI 里连接本地模型

九、第四步：搭建本地知识库（RAG）

9.1 RAG 是什么，为什么需要它？

9.2 准备嵌入模型

9.3 在 Open WebUI 里创建知识库

十、第五步：用 Python 调用本地模型（可选）

10.1 简单示例：对话

10.2 简单示例：文本嵌入

有了这些，你就可以自己写脚本做批量文档处理、自动总结、智能检索等。

十一、进阶方向：这个项目还能怎么玩？

十二、小结

更多推荐文章

相关免费在线工具

从零开始：在本地搭建一个带知识库的 AI 助手（Ollama + Open WebUI）

一、为什么要在本地搭一个 AI 助手？

二、整体架构：我们要搭的是一个什么样的系统？

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 Web 界面：Open WebUI

3.3 模型选择：Qwen2.5 / DeepSeek-R1 等

四、硬件与系统环境：你的电脑够不够格？

4.1 硬件建议（以消费级 PC 为例）

4.2 系统与软件环境

五、部署路线图：我们会分几步走？

六、第一步：安装 Ollama 并跑通本地模型

6.1 安装 Ollama

6.2 拉取并运行一个对话模型

第一次运行时，Ollama 会自动下载模型文件（约 4～5GB），等待下载完成即可。

七、第二步：用 Docker 部署 Open WebUI

7.1 安装 Docker

7.2 启动 Open WebUI 容器

八、第三步：在 WebUI 里连接本地模型

九、第四步：搭建本地知识库（RAG）

9.1 RAG 是什么，为什么需要它？

9.2 准备嵌入模型

9.3 在 Open WebUI 里创建知识库

十、第五步：用 Python 调用本地模型（可选）

10.1 简单示例：对话

10.2 简单示例：文本嵌入

有了这些，你就可以自己写脚本做批量文档处理、自动总结、智能检索等。

十一、进阶方向：这个项目还能怎么玩？

十二、小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具