一、为什么要在本地搭一个 AI 助手?
大模型已成为日常生产力工具,但使用网页版 ChatGPT / 文心一言等存在以下问题:
- 数据隐私:公司内部文档、个人笔记等敏感信息上传至云端存在风险。
- 网络依赖:离线环境或内网管控下无法使用在线 AI。
- 额度与费用:免费额度有限,重度使用需付费,且数据可能被用于训练。
本地部署'AI + 知识库'的优势:
- 数据完全不出本地,满足隐私合规要求。
- 断网也能用,随时随地调取'第二大脑'。
- 可定制:可为团队搭建企业 FAQ 助手,或个人搭建读书笔记助手。
本文目标:从零开始,在本地搭建支持上传文档构建知识库(RAG)的 AI 助手。
二、整体架构
系统核心组件如下:
- Ollama:本地模型运行时,负责加载和调度大模型、嵌入模型,提供统一 API。
- Qwen2.5 系列 / DeepSeek-R1 等:本地对话大模型,作为'大脑'。
- 嵌入模型(Embedding):将文本转为向量,用于知识库检索,如
nomic-embed-text、bge-m3。 - 向量数据库 / 向量索引:存储文档向量,负责相似度检索(Open WebUI 自带,也可外接 Chroma、Milvus 等)。
- Open WebUI:类 ChatGPT 的 Web 界面,支持对话、上传文档、配置知识库。
三、工具选型:为什么推荐 Ollama + Open WebUI?
3.1 大模型运行时:Ollama
相比直接使用 transformers + PyTorch,Ollama 优势明显:
- 跨平台:Windows / macOS / Linux 均有官方安装包。
- 一键拉模型:
ollama pull qwen2.5:7b-instruct即可运行,无需处理 GGUF、量化等细节。 - 统一 API:默认在本地
11434端口提供 REST API,兼容 OpenAI 调用方式。 - 资源友好:支持 CPU / Apple Silicon GPU / NVIDIA GPU,自动检测硬件加速。
3.2 Web 界面:Open WebUI
Open WebUI 是社区活跃的开源大模型 Web 界面之一:
- 界面体验接近 ChatGPT:多轮对话、Markdown 渲染、代码高亮、历史记录管理。
- 自带 RAG 知识库功能:无需写代码即可上传文档、构建知识库。
- 支持多用户:适合团队部署,独立账号和空间。
- 可扩展:支持接入多种模型后端(Ollama、OpenAI 兼容 API 等)。
3.3 模型选择:Qwen2.5 / DeepSeek-R1 等
- Qwen2.5 系列:中文能力强,指令跟随稳定,社区使用广泛。
- DeepSeek-R1 系列:推理和代码能力突出,适合程序员场景。
具体规模视硬件配置而定。


