本地部署 AI 助手:Ollama + Open WebUI 构建私有知识库
大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT / 文心一言,会碰到几个很现实的问题:数据隐私不敢全塞到线上、网络依赖导致断网失联、免费额度有限且存在训练风险。
本地部署一套'AI + 知识库'的好处就很直观:数据完全不出本地,满足隐私合规;断网也能用,随时随地调取你的'第二大脑';可定制性强,给团队搭企业 FAQ 助手,给自己搭读书笔记助手。
本指南的目标,就是带你从零开始,在本地搭一个类似 ChatGPT 的 Web 界面,并且支持上传文档构建知识库(RAG)的 AI 助手。
整体架构:我们要搭的是一个什么样的系统?
简单来说,这是一个由浏览器前端、模型服务和本地向量库组成的闭环系统。流程如下:
- 用户提问:通过浏览器 Web UI 输入问题。
- 向量化检索:问题被嵌入模型转化为向量,在向量知识库中检索相关片段。
- 上下文构建:将检索结果与原始问题组合成提示词。
- 模型生成:本地大模型(如 Qwen2.5)基于上下文生成回答。
- 展示反馈:Web 界面将结果返回给用户。
核心组件:
- Ollama:本地模型运行时,负责加载和调度大模型、嵌入模型,提供统一的 API。
- Qwen2.5 系列 / DeepSeek-R1 等:本地对话大模型,作为'大脑'。
- 嵌入模型(Embedding):把文本转成向量,用于知识库检索,比如
nomic-embed-text、bge-m3等。 - 向量数据库 / 向量索引:存储文档向量,负责相似度检索(Open WebUI 自带,也可以外接 Chroma、Milvus 等)。
- Open WebUI:类 ChatGPT 的 Web 界面,支持对话、上传文档、配置知识库。
工具选型:为什么推荐 Ollama + Open WebUI?
大模型运行时:Ollama
对比直接用 transformers + PyTorch 自己搭一套推理服务,Ollama 的优势非常明显:
- 跨平台:Windows / macOS / Linux 都有官方安装包,安装就是下一步下一步。
- 一键拉模型:
ollama pull qwen2.5:7b-instruct就能拉取并运行模型,不需要自己处理 GGUF、量化、CUDA 等一堆细节。 - 统一 API:默认在本地
11434端口提供 REST API,兼容 OpenAI 调用方式,方便后续写代码集成。 - 资源友好:支持 CPU / Apple Silicon GPU / NVIDIA GPU,自动检测并使用可用硬件加速。
实战经验:如果你只是想'先用起来',而不是做底层研究,Ollama 是目前性价比最高的选择之一。
Web 界面:Open WebUI
Open WebUI 是目前社区最活跃的开源大模型 Web 界面之一,主要特点:
- 界面体验接近 ChatGPT:多轮对话、Markdown 渲染、代码高亮、历史记录管理。
- 自带 RAG 知识库功能:不用写一行代码,就能在界面上上传文档、构建知识库。
- 支持多用户:可以给团队部署,每个人有独立账号和空间。
- 可扩展:支持接入多种模型后端(Ollama、OpenAI 兼容 API 等)。


