一文讲清楚:要选哪些工具、需要什么环境、整体架构长什么样,以及一步步实现到能用的程度。
一、为什么要在本地搭一个 AI 助手?
过去一年,大模型从'新奇玩意儿'迅速变成'日常生产力工具'。但如果你只用网页版 ChatGPT / 文心一言 / 通义千问,会碰到几个很现实的问题:
- 数据隐私:公司内部文档、个人笔记、聊天记录,你敢全部塞到线上吗?
- 网络依赖:在飞机上、高铁里,或者公司内网严格管控时,在线 AI 直接'失联'。
- 额度与费用:免费额度有限,稍微重度一点就要付费,而且你也不知道自己的数据会不会被拿去训练。
本地部署一套 'AI + 知识库' 的好处就非常直观:
- 数据完全不出本地,满足隐私合规要求。
- 断网也能用,随时随地调取你的'第二大脑'。
- 可定制:可以给团队搭一个'企业 FAQ 助手',给自己搭一个'读书笔记助手'。
本系列文章的目标,就是带你从零开始,在本地搭一个类似 ChatGPT 的 Web 界面,并且支持上传文档构建知识库(RAG)的 AI 助手。
二、整体架构:我们要搭的是一个什么样的系统?
用一个简单的架构图来概括一下我们要做的事情:
调用
调用
上传文档
提问
检索结果
回答
浏览器 Web UI
Ollama 模型服务
本地大模型 Qwen2.5
嵌入模型
向量知识库
问题向量化
构建上下文
核心组件:
- Ollama:本地模型运行时,负责加载和调度大模型、嵌入模型,提供统一的 API。
- Qwen2.5 系列 / DeepSeek-R1 等:本地对话大模型,作为'大脑'。
- 嵌入模型(Embedding):把文本转成向量,用于知识库检索,比如
nomic-embed-text、bge-m3等。 - 向量数据库 / 向量索引:存储文档向量,负责相似度检索(Open WebUI 自带,也可以外接 Chroma、Milvus 等)。
- Open WebUI:类 ChatGPT 的 Web 界面,支持对话、上传文档、配置知识库。
三、工具选型:为什么推荐 Ollama + Open WebUI?
3.1 大模型运行时:Ollama
对比直接用 transformers + PyTorch 自己搭一套推理服务,Ollama 的优势非常明显:
- 跨平台:Windows / macOS / Linux 都有官方安装包,安装就是下一步下一步。
- 一键拉模型:
ollama pull qwen2.5:7b-instruct就能拉取并运行模型,不需要自己处理 GGUF、量化、CUDA 等一堆细节。 - 统一 API:默认在本地
11434端口提供 REST API,兼容 OpenAI 调用方式,方便后续写代码集成。 - 资源友好:支持 CPU / Apple Silicon GPU / NVIDIA GPU,自动检测并使用可用硬件加速。
实战经验:如果你只是想'先用起来',而不是做底层研究,Ollama 是目前性价比最高的选择之一。


