一文讲清楚:要选哪些工具、需要什么环境、整体架构长什么样,以及一步步实现到能用的程度。
一、为什么要在本地搭一个 AI 助手?
过去一年,大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT / 文心一言 / 通义千问,会碰到几个很现实的问题:
- 数据隐私:公司内部文档、个人笔记、聊天记录,你敢全部塞到线上吗?
- 网络依赖:在飞机上、高铁里,或者公司内网严格管控时,在线 AI 直接'失联'。
- 额度与费用:免费额度有限,稍微重度一点就要付费,而且你也不知道自己的数据会不会被拿去训练。
本地部署一套'AI + 知识库'的好处就非常直观:
- 数据完全不出本地,满足隐私合规要求。
- 断网也能用,随时随地调取你的'第二大脑'。
- 可定制:可以给团队搭一个'企业 FAQ 助手',给自己搭一个'读书笔记助手'。
本系列的目标,就是带你从零开始,在本地搭一个类似 ChatGPT 的 Web 界面,并且支持上传文档构建知识库(RAG)的 AI 助手。
二、整体架构:我们要搭的是一个什么样的系统?
用一个简单的架构图来概括一下我们要做的事情:
调用 -> 浏览器 Web UI -> Ollama 模型服务 -> 本地大模型 Qwen2.5
提问 -> 嵌入模型 -> 向量知识库 -> 检索结果 -> 回答
核心组件:
- Ollama:本地模型运行时,负责加载和调度大模型、嵌入模型,提供统一的 API。
- Qwen2.5 系列 / DeepSeek-R1 等:本地对话大模型,作为'大脑'。
- 嵌入模型(Embedding):把文本转成向量,用于知识库检索,比如
nomic-embed-text、bge-m3等。 - 向量数据库 / 向量索引:存储文档向量,负责相似度检索(Open WebUI 自带,也可以外接 Chroma、Milvus 等)。
- Open WebUI:类 ChatGPT 的 Web 界面,支持对话、上传文档、配置知识库。
三、工具选型:为什么推荐 Ollama + Open WebUI?
3.1 大模型运行时:Ollama
对比直接用 transformers + PyTorch 自己搭一套推理服务,Ollama 的优势非常明显:
- 跨平台:Windows / macOS / Linux 都有官方安装包,安装就是下一步下一步。
- 一键拉模型:
ollama pull qwen2.5:7b-instruct就能拉取并运行模型,不需要自己处理 GGUF、量化、CUDA 等一堆细节。 - 统一 API:默认在本地
11434端口提供 REST API,兼容 OpenAI 调用方式,方便后续写代码集成。 - 资源友好:支持 CPU / Apple Silicon GPU / NVIDIA GPU,自动检测并使用可用硬件加速。


