本地部署 AI 助手实战：Ollama + Open WebUI 构建私有知识库

大模型已经从新奇玩意儿变成了日常生产力工具，但直接使用云端服务往往面临数据隐私、网络依赖和费用限制等现实问题。在本地搭建一套支持知识库的 AI 助手，能让你的数据完全不出内网，断网也能随时调用'第二大脑'。

一、系统架构与核心组件

我们要搭建的系统本质上是一个 RAG（检索增强生成）应用。流程大致如下：用户通过浏览器提问 -> 系统向量化检索本地文档 -> 将结果与问题组合输入大模型 -> 生成回答。

核心组件包括：

Ollama：本地模型运行时，负责加载和调度大模型及嵌入模型，提供统一的 API。
Qwen2.5 / DeepSeek-R1：作为对话'大脑'，处理自然语言理解与生成。
嵌入模型（Embedding）：如 nomic-embed-text 或 bge-m3，负责将文本转换为向量用于检索。
Open WebUI：类 ChatGPT 的 Web 界面，支持多轮对话、文档上传及知识库管理。

二、硬件与环境准备

1. 硬件建议

场景	推荐配置	说明
入门体验	16GB 内存 + RTX 3060/4060（8GB+ 显存）	可跑 7B～13B INT4 量化模型
舒适使用	32GB 内存 + RTX 4070/4090（12GB+ 显存）	可跑 14B～32B 量化模型，并发更稳
Mac 用户	M1/M2/M3，16GB+ 统一内存	Apple Silicon 对推理优化很好

经验值：7B 参数 INT4 模型约需 4～6GB 显存，13B 需 8～10GB，32B 需 16GB+。

2. 软件环境

操作系统：Windows 10/11、macOS 或主流 Linux 发行版。
Docker：推荐使用 Docker Desktop（Win/Mac）或 Docker Engine + Compose（Linux）。
Ollama：从官网下载安装即可。
NVIDIA 驱动：若使用 N 卡加速，需确保驱动和 CUDA 版本匹配（Ollama 通常会自动检测）。

三、部署步骤详解

1. 安装 Ollama 并运行模型

以 Windows 为例，下载官方安装包后一路'下一步'即可。安装完成后打开命令行验证：

ollama -v

看到版本号即表示成功。接着拉取一个对话模型，比如 Qwen2.5：

# 拉取模型
ollama pull qwen2.5:7b-instruct

# 运行模型进入交互模式
ollama run qwen2.5:7b-instruct

首次运行会自动下载模型文件（约 4～5GB），等待完成后即可直接输入问题测试。

2. 用 Docker 部署 Open WebUI

如果已安装 Docker，可直接启动容器。假设 Ollama 在本机 11434 端口，执行以下命令：

docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

本地部署 AI 助手实战：Ollama + Open WebUI 构建私有知识库

本地部署 AI 助手实战：Ollama + Open WebUI 构建私有知识库

一、系统架构与核心组件

二、硬件与环境准备

1. 硬件建议

2. 软件环境

三、部署步骤详解

1. 安装 Ollama 并运行模型

2. 用 Docker 部署 Open WebUI

更多推荐文章

相关免费在线工具

3. 连接模型与创建知识库

四、Python API 集成示例

1. 对话调用

2. 文本嵌入

五、进阶方向

更多推荐文章

相关免费在线工具

本地部署 AI 助手实战：Ollama + Open WebUI 构建私有知识库

本地部署 AI 助手实战：Ollama + Open WebUI 构建私有知识库

一、系统架构与核心组件

二、硬件与环境准备

1. 硬件建议

2. 软件环境

三、部署步骤详解

1. 安装 Ollama 并运行模型

2. 用 Docker 部署 Open WebUI

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 连接模型与创建知识库

四、Python API 集成示例

1. 对话调用

2. 文本嵌入

五、进阶方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具