作为大模型开发人员,搭建一套 本地私有知识库系统(Local RAG Pipeline)是提升 AI 助手专业性、保障数据安全、避免幻觉的关键基础设施。以下是一套经过生产验证、开源免费、支持中文且可扩展性强的技术栈方案与详细搭建步骤。
整体架构设计
原始文档(PDF/Word/TXT/Markdown)经过解析和分块后,通过向量化存入向量数据库,最终由本地运行的 LLM 推理引擎结合检索结果回答用户问题。整个流程闭环在本地完成。
推荐技术栈
| 组件 | 推荐方案 | 选择理由 |
|---|---|---|
| 文档解析 | Unstructured + PyPDF2 / docx2txt | 支持 PDF/Word/PPT/HTML,保留表格结构 |
| 文本分块 | LangChain RecursiveCharacterTextSplitter | 智能按段落/句子切分,避免语义割裂 |
| 嵌入模型(Embedding) | BAAI/bge-large-zh-v1.5(中文)或 nomic-ai/nomic-embed-text-v1.5(多语言) | 中文 SOTA,4096 上下文,HuggingFace 开源 |
| 向量数据库 | ChromaDB(轻量)或 Qdrant(高性能) | Chroma:单机文件存储,零配置;Qdrant:支持过滤、分布式,适合未来扩展 |
| 大模型推理 | Ollama + Llama 3.1 8B/70B或 vLLM(高吞吐) | Ollama:一键启动,API 兼容 OpenAI;vLLM:PagedAttention,吞吐提升 24x |
| 应用框架 | LangChain 或 LlamaIndex | LangChain:生态丰富,调试工具完善 |
💡 为什么不用 Elasticsearch?
虽然 ES 支持向量检索(≥8.0),但配置复杂、资源占用高。Chroma/Qdrant 专为 embedding 设计,更轻量高效。
具体搭建步骤
环境准备
首先安装基础环境。确保 Python 版本在 3.10 以上,然后安装 Ollama 并启动服务。
# 安装 Python ≥3.10
sudo apt install python3-pip
# 安装 Ollama(自动下载 Llama 3)
curl -fsSL https://ollama.com/install.sh | sh
# 启动 Ollama 服务(后台运行)
ollama serve &
接着安装 Python 依赖包。
pip install langchain chromadb unstructured PyPDF2 python-docx sentence-transformers
准备知识文档
将你的知识文件放入 目录,支持 , , , , 等格式。


