本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战

为什么要在本地搭一个 AI 助手？

过去一年，大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT、文心一言或通义千问，会碰到几个很现实的问题：

数据隐私：公司内部文档、个人笔记、聊天记录，你敢全部塞到线上吗？
网络依赖：在飞机上、高铁里，或者公司内网严格管控时，在线 AI 直接'失联'。
额度与费用：免费额度有限，稍微重度一点就要付费，而且你也不知道自己的数据会不会被拿去训练。

本地部署一套'AI + 知识库'的好处就非常直观：

数据完全不出本地，满足隐私合规要求。
断网也能用，随时随地调取你的'第二大脑'。
可定制：可以给团队搭一个'企业 FAQ 助手'，给自己搭一个'读书笔记助手'。

本指南的目标，就是带你从零开始，在本地搭一个类似 ChatGPT 的 Web 界面，并且支持上传文档构建知识库（RAG）的 AI 助手。

整体架构：我们要搭的是一个什么样的系统？

用一个简单的架构图来概括一下我们要做的事情：

[浏览器 Web UI] <--> [Open WebUI]
       |                    |
    提问/上传           调用 API
       |                    |
[向量知识库] <--> [嵌入模型] <--> [本地大模型 Qwen2.5]
       ^                    |
       |____________________|
            检索结果

核心组件：

Ollama：本地模型运行时，负责加载和调度大模型、嵌入模型，提供统一的 API。
Qwen2.5 系列 / DeepSeek-R1 等：本地对话大模型，作为'大脑'。
嵌入模型（Embedding）：把文本转成向量，用于知识库检索，比如 nomic-embed-text、bge-m3 等。
向量数据库 / 向量索引：存储文档向量，负责相似度检索（Open WebUI 自带，也可以外接 Chroma、Milvus 等）。
Open WebUI：类 ChatGPT 的 Web 界面，支持对话、上传文档、配置知识库。

工具选型：为什么推荐 Ollama + Open WebUI？

大模型运行时：Ollama

对比直接用 transformers + PyTorch 自己搭一套推理服务，Ollama 的优势非常明显：

跨平台：Windows / macOS / Linux 都有官方安装包，安装就是下一步下一步。
一键拉模型：ollama pull qwen2.5:7b-instruct 就能拉取并运行模型，不需要自己处理 GGUF、量化、CUDA 等一堆细节。
统一 API：默认在本地 11434 端口提供 REST API，兼容 OpenAI 调用方式，方便后续写代码集成。
资源友好：支持 CPU / Apple Silicon GPU / NVIDIA GPU，自动检测并使用可用硬件加速。

实战经验：如果你只是想'先用起来'，而不是做底层研究，Ollama 是目前性价比最高的选择之一。

场景	推荐配置	说明
入门体验	16GB 内存 + RTX 3060/4060（8GB+ 显存）	可以跑 7B～13B 的 INT4 量化模型
舒服使用	32GB 内存 + RTX 4070/4090（12GB+ 显存）	可以跑 14B～32B 量化模型，并发更稳
Mac 用户	M1/M2/M3，16GB+ 统一内存	Apple Silicon 对推理优化很好，体验接近中档 GPU

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战

为什么要在本地搭一个 AI 助手？

整体架构：我们要搭的是一个什么样的系统？

工具选型：为什么推荐 Ollama + Open WebUI？

大模型运行时：Ollama

更多推荐文章

相关免费在线工具

Web 界面：Open WebUI

模型选择：Qwen2.5 / DeepSeek-R1 等

硬件与系统环境：你的电脑够不够格？

硬件建议（以消费级 PC 为例）

系统与软件环境

第一步：安装 Ollama 并跑通本地模型

安装 Ollama

拉取并运行一个对话模型

第二步：用 Docker 部署 Open WebUI

安装 Docker

启动 Open WebUI 容器

第三步：在 WebUI 里连接本地模型

第四步：搭建本地知识库（RAG）

RAG 是什么，为什么需要它？

准备嵌入模型

在 Open WebUI 里创建知识库

第五步：用 Python 调用本地模型（可选）

简单示例：对话

简单示例：文本嵌入

进阶方向：这个项目还能怎么玩？

小结

更多推荐文章

相关免费在线工具

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 实战

为什么要在本地搭一个 AI 助手？

整体架构：我们要搭的是一个什么样的系统？

工具选型：为什么推荐 Ollama + Open WebUI？

大模型运行时：Ollama

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Web 界面：Open WebUI

模型选择：Qwen2.5 / DeepSeek-R1 等

硬件与系统环境：你的电脑够不够格？

硬件建议（以消费级 PC 为例）

系统与软件环境

第一步：安装 Ollama 并跑通本地模型

安装 Ollama

拉取并运行一个对话模型

第二步：用 Docker 部署 Open WebUI

安装 Docker

启动 Open WebUI 容器

第三步：在 WebUI 里连接本地模型

第四步：搭建本地知识库（RAG）

RAG 是什么，为什么需要它？

准备嵌入模型

在 Open WebUI 里创建知识库

第五步：用 Python 调用本地模型（可选）

简单示例：对话

简单示例：文本嵌入

进阶方向：这个项目还能怎么玩？

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具