【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库 | 极客日志

Python

【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库

搭建本地知识库 ✅ 一、整体架构设计（RAG + 向量检索 + 本地 LLM） 🧰 二、推荐技术栈（2026 年最佳实践） 🛠️ 三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例）步骤 1：安装基础环境步骤 2：安装 Python 依赖步骤 3：准备知识文档步骤 4：构建向量知识库（Python 脚本）步骤 5：启动问答服务（RAG 推理） 🔒 四…

开源信徒发布于 2026/4/7更新于 2026/7/631K 浏览

搭建本地知识库

✅ 一、整体架构设计（RAG + 向量检索 + 本地 LLM）
🧰 二、推荐技术栈（2026 年最佳实践）
🛠️ 三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例）
🔒 四、安全与性能优化建议
🧪 五、验证知识库效果
- 测试用例：
📦 六、进阶扩展方向
✅ 总结：你的本地知识库技术栈

作为大模型开发人员，搭建一套 本地私有知识库系统（Local RAG Pipeline）是提升 AI 助手专业性、保障数据安全、避免幻觉的关键基础设施。以下是一套 经过生产验证、开源免费、支持中文、可扩展性强的技术栈方案与详细搭建步骤。

✅ 一、整体架构设计（RAG + 向量检索 + 本地 LLM）

原始文档
（PDF/Word/TXT/Markdown）

文档解析 & 分块

向量化
（Embedding）

向量数据库

大模型 Agent

LLM 推理引擎
（本地运行）

用户问答

🧰 二、推荐技术栈（2026 年最佳实践）

组件	推荐方案	选择理由
文档解析	`Unstructured` + `PyPDF2` / `docx2txt`	支持 PDF/Word/PPT/HTML，保留表格结构
文本分块	`LangChain` RecursiveCharacterTextSplitter	智能按段落/句子切分，避免语义割裂
嵌入模型（Embedding）	BAAI/bge-large-zh-v1.5（中文）或 nomic-ai/nomic-embed-text-v1.5（多语言）	中文 SOTA，4096 上下文，HuggingFace 开源
向量数据库	ChromaDB（轻量）或 Qdrant（高性能）	Chroma：单机文件存储，零配置Qdrant：支持过滤、分布式，适合未来扩展

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

# 安装 Python ≥3.10sudoaptinstall python3-pip # 安装 Ollama（自动下载 Llama 3）curl -fsSL https://ollama.com/install.sh |sh# 启动 Ollama 服务（后台运行） ollama serve &

pip install langchain chromadb unstructured PyPDF2 python-docx sentence-transformers

from langchain.document_loaders import DirectoryLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma import os # 1. 加载文档 loader = DirectoryLoader('./docs', glob="**/*.pdf", show_progress=True) docs = loader.load()# 2. 文本分块（按字符递归切分） text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n","\n","。","！","？","；"," ",""]) chunks = text_splitter.split_documents(docs)# 3. 加载中文 Embedding 模型（首次运行会自动下载 ~1.3GB） embeddings = HuggingFaceEmbeddings( model_name="BAAI/bge-large-zh-v1.5", model_kwargs={'device':'cuda'}# 若无 GPU 改为 'cpu')# 4. 存入 Chroma 向量库（持久化到 ./chroma_db） vectorstore = Chroma.from_documents( documents=chunks, embedding=embeddings, persist_directory="./chroma_db") vectorstore.persist()print(f"✅ 知识库构建完成！共 {len(chunks)} 个片段")

python build_kb.py

from langchain.vectorstores import Chroma from langchain.embeddings import HuggingFaceEmbeddings from langchain.llms import Ollama from langchain.chains import RetrievalQA # 加载向量库 embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-large-zh-v1.5") vectorstore = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)# 初始化本地 LLM（Ollama 需提前 pull 模型） llm = Ollama(model="llama3:8b", temperature=0.1)# 构建 RAG 链 qa_chain = RetrievalQA.from_chain_type( llm=llm, retriever=vectorstore.as_retriever(search_kwargs={"k":3}), return_source_documents=True)# 问答循环whileTrue: query =input("\n❓ 请输入问题（输入 'quit' 退出）: ")if query =="quit":break result = qa_chain({"query": query})print(f"\n💡 回答:\n{result['result']}")# 显示引用来源print("\n📚 参考片段:")for i, doc inenumerate(result["source_documents"]):print(f"[{i+1}] {doc.page_content[:100]}...")

ollama pull llama3:8b # 或 llama3:70b（需 48GB+ 内存）

python query_kb.py

场景	优化方案
GPU 资源充足	使用 `vLLM` 替代 Ollama：`pip install vllm` + `--model meta-llama/Llama-3.1-8B-Instruct`
大文档集（>10万页）	改用 Qdrant：`docker run -p 6333:6333 qdrant/qdrant`
低延迟要求	将 Embedding 模型转为 ONNX 格式（提速 2–3x）

需求	方案
Web 界面	集成 `Gradio` 或 `Streamlit`
自动更新	监听 `./docs` 目录变动，增量更新向量库
多模态支持	用 `Donut` 解析 PDF 表格，转为结构化文本
Agent 能力	接入 `LangGraph` 实现多跳推理

组件	选用方案	启动命令
LLM	Ollama + Llama 3.1 8B	`ollama run llama3:8b`
Embedding	BAAI/bge-large-zh-v1.5	自动加载
向量库	ChromaDB	`./chroma_db` 文件夹
框架	LangChain	`pip install langchain`

【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库

搭建本地知识库

✅ 一、整体架构设计（RAG + 向量检索 + 本地 LLM）

🧰 二、推荐技术栈（2026 年最佳实践）

更多推荐文章

相关免费在线工具

🛠️ 三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例）

步骤 1：安装基础环境

步骤 2：安装 Python 依赖

步骤 3：准备知识文档

步骤 4：构建向量知识库（Python 脚本）

步骤 5：启动问答服务（RAG 推理）

🔒 四、安全与性能优化建议

1. 隐私保护

2. 性能调优

3. 中文增强

🧪 五、验证知识库效果

测试用例：

📦 六、进阶扩展方向

✅ 总结：你的本地知识库技术栈

更多推荐文章

相关免费在线工具

【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库

搭建本地知识库

✅ 一、整体架构设计（RAG + 向量检索 + 本地 LLM）

🧰 二、推荐技术栈（2026 年最佳实践）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

🛠️ 三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例）

步骤 1：安装基础环境

步骤 2：安装 Python 依赖

步骤 3：准备知识文档

步骤 4：构建向量知识库（Python 脚本）

步骤 5：启动问答服务（RAG 推理）

🔒 四、安全与性能优化建议

1. 隐私保护

2. 性能调优

3. 中文增强

🧪 五、验证知识库效果

测试用例：

📦 六、进阶扩展方向

✅ 总结：你的本地知识库技术栈

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具