本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战指南

本地部署 AI 助手：Ollama + Open WebUI 构建私有知识库

大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT / 文心一言，会碰到几个很现实的问题：数据隐私不敢全塞到线上、网络依赖导致断网失联、免费额度有限且存在训练风险。

本地部署一套'AI + 知识库'的好处就很直观：数据完全不出本地，满足隐私合规；断网也能用，随时随地调取你的'第二大脑'；可定制性强，给团队搭企业 FAQ 助手，给自己搭读书笔记助手。

本指南的目标，就是带你从零开始，在本地搭一个类似 ChatGPT 的 Web 界面，并且支持上传文档构建知识库（RAG）的 AI 助手。

整体架构：我们要搭的是一个什么样的系统？

简单来说，这是一个由浏览器前端、模型服务和本地向量库组成的闭环系统。流程如下：

用户提问：通过浏览器 Web UI 输入问题。
向量化检索：问题被嵌入模型转化为向量，在向量知识库中检索相关片段。
上下文构建：将检索结果与原始问题组合成提示词。
模型生成：本地大模型（如 Qwen2.5）基于上下文生成回答。
展示反馈：Web 界面将结果返回给用户。

核心组件：

Ollama：本地模型运行时，负责加载和调度大模型、嵌入模型，提供统一的 API。
Qwen2.5 系列 / DeepSeek-R1 等：本地对话大模型，作为'大脑'。
嵌入模型（Embedding）：把文本转成向量，用于知识库检索，比如 nomic-embed-text、bge-m3 等。
向量数据库 / 向量索引：存储文档向量，负责相似度检索（Open WebUI 自带，也可以外接 Chroma、Milvus 等）。
Open WebUI：类 ChatGPT 的 Web 界面，支持对话、上传文档、配置知识库。

工具选型：为什么推荐 Ollama + Open WebUI？

大模型运行时：Ollama

对比直接用 transformers + PyTorch 自己搭一套推理服务，Ollama 的优势非常明显：

跨平台：Windows / macOS / Linux 都有官方安装包，安装就是下一步下一步。
一键拉模型：ollama pull qwen2.5:7b-instruct 就能拉取并运行模型，不需要自己处理 GGUF、量化、CUDA 等一堆细节。
统一 API：默认在本地 11434 端口提供 REST API，兼容 OpenAI 调用方式，方便后续写代码集成。
资源友好：支持 CPU / Apple Silicon GPU / NVIDIA GPU，自动检测并使用可用硬件加速。

实战经验：如果你只是想'先用起来'，而不是做底层研究，Ollama 是目前性价比最高的选择之一。

Web 界面：Open WebUI

Open WebUI 是目前社区最活跃的开源大模型 Web 界面之一，主要特点：

界面体验接近 ChatGPT：多轮对话、Markdown 渲染、代码高亮、历史记录管理。
自带 RAG 知识库功能：不用写一行代码，就能在界面上上传文档、构建知识库。
支持多用户：可以给团队部署，每个人有独立账号和空间。
可扩展：支持接入多种模型后端（Ollama、OpenAI 兼容 API 等）。

场景	推荐配置	说明
入门体验	16GB 内存 + RTX 3060/4060（8GB+ 显存）	可以跑 7B～13B 的 INT4 量化模型
舒服使用	32GB 内存 + RTX 4070/4090（12GB+ 显存）	可以跑 14B～32B 量化模型，并发更稳
Mac 用户	M1/M2/M3，16GB+ 统一内存	Apple Silicon 对推理优化很好，体验接近中档 GPU

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战指南

本地部署 AI 助手：Ollama + Open WebUI 构建私有知识库

整体架构：我们要搭的是一个什么样的系统？

工具选型：为什么推荐 Ollama + Open WebUI？

大模型运行时：Ollama

Web 界面：Open WebUI

模型选择：Qwen2.5 / DeepSeek-R1 等

更多推荐文章

相关免费在线工具

硬件与系统环境：你的电脑够不够格？

硬件建议（以消费级 PC 为例）

系统与软件环境

部署路线图：我们会分几步走？

第一步：安装 Ollama 并跑通本地模型

安装 Ollama

拉取并运行一个对话模型

第二步：用 Docker 部署 Open WebUI

安装 Docker

启动 Open WebUI 容器

第三步：在 WebUI 里连接本地模型

第四步：搭建本地知识库（RAG）

RAG 是什么，为什么需要它？

准备嵌入模型

在 Open WebUI 里创建知识库

第五步：用 Python 调用本地模型（可选）

简单示例：对话

简单示例：文本嵌入

进阶方向：这个项目还能怎么玩？

小结

更多推荐文章

相关免费在线工具

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战指南

本地部署 AI 助手：Ollama + Open WebUI 构建私有知识库

整体架构：我们要搭的是一个什么样的系统？

工具选型：为什么推荐 Ollama + Open WebUI？

大模型运行时：Ollama

Web 界面：Open WebUI

模型选择：Qwen2.5 / DeepSeek-R1 等

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

硬件与系统环境：你的电脑够不够格？

硬件建议（以消费级 PC 为例）

系统与软件环境

部署路线图：我们会分几步走？

第一步：安装 Ollama 并跑通本地模型

安装 Ollama

拉取并运行一个对话模型

第二步：用 Docker 部署 Open WebUI

安装 Docker

启动 Open WebUI 容器

第三步：在 WebUI 里连接本地模型

第四步：搭建本地知识库（RAG）

RAG 是什么，为什么需要它？

准备嵌入模型

在 Open WebUI 里创建知识库

第五步：用 Python 调用本地模型（可选）

简单示例：对话

简单示例：文本嵌入

进阶方向：这个项目还能怎么玩？

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具