一、为什么要在本地搭一个 AI 助手?
过去一年,大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT / 文心一言 / 通义千问,会碰到几个很现实的问题:
- 数据隐私:公司内部文档、个人笔记、聊天记录,你敢全部塞到线上吗?
- 网络依赖:在飞机上、高铁里,或者公司内网严格管控时,在线 AI 直接'失联'。
- 额度与费用:免费额度有限,稍微重度一点就要付费,而且你也不知道自己的数据会不会被拿去训练。
本地部署一套'AI + 知识库'的好处就非常直观:
- 数据完全不出本地,满足隐私合规要求。
- 断网也能用,随时随地调取你的'第二大脑'。
- 可定制:可以给团队搭一个'企业 FAQ 助手',给自己搭一个'读书笔记助手'。
本系列文章的目标,就是带你从零开始,在本地搭一个类似 ChatGPT 的 Web 界面,并且支持上传文档构建知识库(RAG)的 AI 助手。
二、整体架构:我们要搭的是一个什么样的系统?
用一个简单的架构图来概括一下我们要做的事情:
- 浏览器 Web UI 发起请求
- Ollama 模型服务调度
- 本地大模型 Qwen2.5 处理
- 嵌入模型进行向量化
- 向量知识库存储与检索
核心组件:
- Ollama:本地模型运行时,负责加载和调度大模型、嵌入模型,提供统一的 API。
- Qwen2.5 系列 / DeepSeek-R1 等:本地对话大模型,作为'大脑'。
- 嵌入模型(Embedding):把文本转成向量,用于知识库检索,比如
nomic-embed-text、bge-m3等。 - 向量数据库 / 向量索引:存储文档向量,负责相似度检索(Open WebUI 自带,也可以外接 Chroma、Milvus 等)。
- Open WebUI:类 ChatGPT 的 Web 界面,支持对话、上传文档、配置知识库。
三、工具选型:为什么推荐 Ollama + Open WebUI?
3.1 大模型运行时:Ollama
对比直接用 transformers + PyTorch 自己搭一套推理服务,Ollama 的优势非常明显:
- 跨平台:Windows / macOS / Linux 都有官方安装包,安装就是下一步下一步。
- 一键拉模型:
ollama pull qwen2.5:7b-instruct就能拉取并运行模型,不需要自己处理 GGUF、量化、CUDA 等一堆细节。 - 统一 API:默认在本地
11434端口提供 REST API,兼容 OpenAI 调用方式,方便后续写代码集成。 - 资源友好:支持 CPU / Apple Silicon GPU / NVIDIA GPU,自动检测并使用可用硬件加速。
实战经验:如果你只是想'先用起来',而不是做底层研究,Ollama 是目前性价比最高的选择之一。
3.2 Web 界面:Open WebUI
Open WebUI 是目前社区最活跃的开源大模型 Web 界面之一,主要特点:
- 界面体验接近 ChatGPT:多轮对话、Markdown 渲染、代码高亮、历史记录管理。
- 自带 RAG 知识库功能:不用写一行代码,就能在界面上上传文档、构建知识库。


