DeepSeek + 本地知识库搭建指南
在上一篇文章中我们分享了国产 AI 之光 DeepSeek 的本地部署教程,效果已媲美 GPT-4。本文将深入探讨如何结合 DeepSeek 与本地知识库(RAG, Retrieval-Augmented Generation),打造具备私有数据理解能力的超强 AI 助手。
一、技术架构与数据流程
构建本地知识库的核心在于将非结构化文本数据转换为向量,存入向量数据库,并在用户提问时通过检索增强生成(RAG)技术召回相关片段。整体数据流程如下:
- 文档解析:用户上传 PDF、Markdown 或 TXT 等格式文档。
- 向量化处理:使用 Embedding 模型将文本切片转化为向量标识。
- 存储索引:向量存入本地向量数据库。
- 检索匹配:用户提问时,系统计算问题向量与库中向量的相似度。
- 上下文生成:将匹配到的片段作为上下文输入给 LLM(如 DeepSeek),生成最终回答。

二、方案一:基于 Cherry Studio 搭建(推荐)
Cherry Studio 是一款优秀的本地 AI 客户端,支持多模型管理和本地知识库集成,适合大多数开发者及非技术人员使用。
1. 环境准备:安装 Ollama 与嵌入模型
首先需要本地运行推理服务。Ollama 是目前最流行的本地大模型运行工具之一。
ollama pull bge-m3
执行后你会看到类似以下的输出,表示模型已成功下载并验证:
pulling manifest
pulling daec91ffb5dd... 100%
pulling a406579cd136... 100%
verifying sha512 digest
writing manifest
success
注意:bge-m3 是一个强大的多语言嵌入模型,适合中文场景下的语义检索。
2. 下载与安装 Cherry Studio
访问 Cherry Studio 官网或 GitHub 页面,根据你的操作系统(Windows/macOS/Linux)下载对应版本。

安装建议:
- 安装路径建议选择非 C 盘目录,避免系统盘空间不足导致性能下降。
- 确保电脑内存至少 16GB,若运行大参数模型建议 32GB 以上。
3. 配置本地 Ollama 服务
启动 Cherry Studio 后,需将其连接到本地 Ollama 服务。
- 点击左下角设置图标。
- 选择「模型服务」。
- 选择
Ollama 作为提供商。
- 点击「管理」,然后点击模型后面的加号(+)。
- 系统会自动扫描本地已安装的 Ollama 模型。
- 减号(-)表示取消选择当前模型。

4. 知识库配置步骤
- 进入「知识库」模块,点击「添加」。
- 选择嵌入模型(Embedding Model),此处应选
bge-m3。
- 填写知识库名称,例如
My_Project_Docs。

5. 添加知识文档
Cherry Studio 支持直接添加文件文件夹,也支持批量导入。
- 操作方式:将文档拖拽至上传框,或点击添加按钮选择目录。
- 状态反馈:添加完成后出现绿色对号,表示向量化完成。
- 优势:支持增量更新,修改源文件后可重新索引。

6. 搜索验证与问答测试
配置完成后,即可进行检索测试。
- 点击搜索知识库功能。
- 输入关键词或自然语言问题。
- 观察搜索结果的相关性。
即使输入内容不完全匹配,系统也能基于语义关联返回正确信息。

7. 大模型处理与对话
最后一步是将知识库挂载到聊天会话中。
- 点击左上角聊天图标。
- 进入「助手」设置,选择默认助手或新建助手。
- 选择大模型:优先选择本地部署的 DeepSeek 模型。
- 设置知识库:务必勾选之前创建的知识库,否则不会参考私有数据。
- 输入提问内容并发送。

结果展示:
DeepSeek 会整理回答,并明确标注参考了哪些资料片段,实现可追溯的 AI 辅助。

8. 满血版配置
如果本地算力有限,可以在模型服务中配置在线的 DeepSeek API 服务,以获得更强的推理能力。但请注意隐私风险。
安全警告:如果你的知识库包含敏感隐私数据,请严禁联网!严禁联网!严禁联网!
三、方案二:基于 AnythingLLM 搭建
AnythingLLM 是一个开源的桌面端应用,提供完整的 RAG 工作流,适合需要更灵活配置的技术人员。
1. 下载与安装
访问 AnythingLLM 官网下载 Desktop 版本。安装时同样建议避开 C 盘。

2. 基础配置
- 点击左下角设置。
- LLM 首选项:
- 选择
Ollama 作为模型提供商。
- 选择已安装的 DeepSeek 模型。
- 确认地址为
http://localhost:11434。
- 保存设置。

-
向量数据库:
- 默认使用内置 SQLite 或 Weaviate。
- 若未指定目录,默认在 C 盘,后续可在设置中迁移。
-
嵌入模型:
- 可使用自带模型,也可连接 Ollama 安装的
bge-m3。

3. 工作区与文档管理
- 新建工作区(Workspace)。
- 默认会话模式下,直接将文档拖拽到上传框。
- 系统会自动解析并建立索引。

注意事项:
- 文档在工作区内是共用的,多人协作需注意权限管理。
- 支持远程文档接入,如 Confluence、GitHub 仓库等。

4. API 功能
AnythingLLM 提供 API 接口,允许外部程序调用知识库问答功能,适合作为公共知识库服务后端。

四、方案对比与总结
| 特性 | Cherry Studio | AnythingLLM |
|---|
| 易用性 | 高,UI 友好,适合新手 | 中,需一定技术背景 |
| 性能 | 轻量级,响应快 | 较重,资源占用较高 |
| 扩展性 | 插件生态丰富 | 支持 Docker 部署,API 完善 |
| 适用人群 | 个人开发者、非技术人员 | 团队、企业内网部署 |
总结:
- Cherry Studio 体验更佳,操作直观,适合快速搭建个人助手。
- AnythingLLM 更像是一个包壳的 Web 应用,具备更强的工程化能力,适合技术人员二次开发。
- 对于喜欢折腾的开发人员,还可以结合 Dify 等编排平台使用,实现更复杂的 Agent 工作流。
五、本地知识库的优势
- 隐私安全性:数据完全本地化,无需上传云端,防止资料外泄。
- 离线可用:断网环境下依然可以正常查询和生成内容。
- 个性化增强:AI 能学习你的文档习惯,在代码开发中快速生成符合你风格的代码。
- 成本可控:无需支付昂贵的 API 调用费用,仅需硬件投入。
六、常见问题排查 (Troubleshooting)
1. 模型加载失败
- 现象:Ollama 启动后无法列出模型。
- 解决:检查端口是否被占用(默认 11434),确认环境变量
OLLAMA_HOST 设置正确。
2. 向量检索速度慢
- 原因:文档切片过大或向量维度不匹配。
- 解决:调整 Embedding 模型的 chunk size,建议使用 bge-m3 以获得更好的中文语义表现。
3. 显存不足
- 现象:运行大模型时崩溃。
- 解决:尝试量化模型(如 GGUF 格式的 Q4_K_M),或减少并发请求数。
七、进阶建议
为了进一步提升效果,建议关注以下方向:
- 提示词工程:优化 System Prompt,明确告诉 AI 角色设定及回答规范。
- 混合检索:结合关键词检索与向量检索,提高召回准确率。
- 定期维护:及时清理过期文档,保持知识库的时效性和准确性。
通过以上步骤,你可以成功构建一个安全、高效且个性化的本地 AI 知识库系统。