为什么要在本地搭一个 AI 助手?
过去一年,大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT、文心一言或通义千问,会碰到几个很现实的问题:
- 数据隐私:公司内部文档、个人笔记、聊天记录,你敢全部塞到线上吗?
- 网络依赖:在飞机上、高铁里,或者公司内网严格管控时,在线 AI 直接'失联'。
- 额度与费用:免费额度有限,稍微重度一点就要付费,而且你也不知道自己的数据会不会被拿去训练。
本地部署一套'AI + 知识库'的好处就非常直观:
- 数据完全不出本地,满足隐私合规要求。
- 断网也能用,随时随地调取你的'第二大脑'。
- 可定制:可以给团队搭一个'企业 FAQ 助手',给自己搭一个'读书笔记助手'。
本指南的目标,就是带你从零开始,在本地搭一个类似 ChatGPT 的 Web 界面,并且支持上传文档构建知识库(RAG)的 AI 助手。
整体架构:我们要搭的是一个什么样的系统?
用一个简单的架构图来概括一下我们要做的事情:
[浏览器 Web UI] <--> [Open WebUI]
| |
提问/上传 调用 API
| |
[向量知识库] <--> [嵌入模型] <--> [本地大模型 Qwen2.5]
^ |
|____________________|
检索结果
核心组件:
- Ollama:本地模型运行时,负责加载和调度大模型、嵌入模型,提供统一的 API。
- Qwen2.5 系列 / DeepSeek-R1 等:本地对话大模型,作为'大脑'。
- 嵌入模型(Embedding):把文本转成向量,用于知识库检索,比如
nomic-embed-text、bge-m3等。 - 向量数据库 / 向量索引:存储文档向量,负责相似度检索(Open WebUI 自带,也可以外接 Chroma、Milvus 等)。
- Open WebUI:类 ChatGPT 的 Web 界面,支持对话、上传文档、配置知识库。
工具选型:为什么推荐 Ollama + Open WebUI?
大模型运行时:Ollama
对比直接用 transformers + PyTorch 自己搭一套推理服务,Ollama 的优势非常明显:
- 跨平台:Windows / macOS / Linux 都有官方安装包,安装就是下一步下一步。
- 一键拉模型:
ollama pull qwen2.5:7b-instruct就能拉取并运行模型,不需要自己处理 GGUF、量化、CUDA 等一堆细节。 - 统一 API:默认在本地
11434端口提供 REST API,兼容 OpenAI 调用方式,方便后续写代码集成。 - 资源友好:支持 CPU / Apple Silicon GPU / NVIDIA GPU,自动检测并使用可用硬件加速。
实战经验:如果你只是想'先用起来',而不是做底层研究,Ollama 是目前性价比最高的选择之一。


