Chroma + Ollama + Llama 3.1 搭建本地知识库 | 极客日志

PythonAI算法

Chroma + Ollama + Llama 3.1 搭建本地知识库

介绍如何使用 ChromaDB、Ollama 和 Llama 3.1 搭建本地私有知识库系统。通过 LangChain 框架整合文档解析、向量化及 RAG 流程，实现离线问答。方案涵盖环境安装、Python 脚本编写、向量库构建及查询服务启动，并提供隐私保护、性能调优及中文增强建议。适用于需要数据安全和专业性的 AI 应用场景。

灰度发布发布于 2026/4/6更新于 2026/7/2147 浏览

搭建本地知识库

作为大模型开发人员，搭建一套 本地私有知识库系统（Local RAG Pipeline）是提升 AI 助手专业性、保障数据安全、避免幻觉的关键基础设施。以下是一套 经过生产验证、开源免费、支持中文、可扩展性强的技术栈方案与详细搭建步骤。

一、整体架构设计（RAG + 向量检索 + 本地 LLM）

原始文档
（PDF/Word/TXT/Markdown）

文档解析 & 分块

向量化
（Embedding）

向量数据库

大模型 Agent

LLM 推理引擎
（本地运行）

用户问答

二、推荐技术栈（2026 年最佳实践）

组件	推荐方案	选择理由
文档解析	`Unstructured` + `PyPDF2` / `docx2txt`	支持 PDF/Word/PPT/HTML，保留表格结构
文本分块	`LangChain` RecursiveCharacterTextSplitter	智能按段落/句子切分，避免语义割裂
嵌入模型（Embedding）	BAAI/bge-large-zh-v1.5（中文）或 nomic-ai/nomic-embed-text-v1.5（多语言）	中文 SOTA，4096 上下文，HuggingFace 开源
向量数据库	ChromaDB（轻量）或 Qdrant（高性能）	Chroma：单机文件存储，零配置 Qdrant：支持过滤、分布式，适合未来扩展
大模型推理	Ollama + Llama 3.1 8B/70B或 vLLM（高吞吐）	Ollama：一键启动，API 兼容 OpenAI vLLM：PagedAttention，吞吐提升 24x
应用框架	LangChain 或 LlamaIndex	LangChain：生态丰富，调试工具完善

💡 为什么不用 Elasticsearch？
虽然 ES 支持向量检索（≥8.0），但配置复杂、资源占用高。Chroma/Qdrant 专为 embedding 设计，更轻量高效。

三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例）

步骤 1：安装基础环境


 apt install python3-pip

curl -fsSL https://ollama.com/install.sh | sh

ollama serve &

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install langchain chromadb unstructured PyPDF2 python-docx sentence-transformers

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
import os

# 1. 加载文档
loader = DirectoryLoader('./docs', glob="**/*.pdf", show_progress=True)
docs = loader.load()

# 2. 文本分块（按字符递归切分）
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n","\n","。","！","？","；"," ",""]
)
chunks = text_splitter.split_documents(docs)

# 3. 加载中文 Embedding 模型（首次运行会自动下载 ~1.3GB）
embeddings = HuggingFaceEmbeddings(
    model_name="BAAI/bge-large-zh-v1.5",
    model_kwargs={'device':'cuda'} # 若无 GPU 改为 'cpu'
)

# 4. 存入 Chroma 向量库（持久化到 ./chroma_db）
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)
vectorstore.persist()
print(f"✅ 知识库构建完成！共 {len(chunks)} 个片段")

python build_kb.py

from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.llms import Ollama
from langchain.chains import RetrievalQA

# 加载向量库
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-large-zh-v1.5")
vectorstore = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)

# 初始化本地 LLM（Ollama 需提前 pull 模型）
llm = Ollama(model="llama3:8b", temperature=0.1)

# 构建 RAG 链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k":3}),
    return_source_documents=True
)

# 问答循环
while True:
    query = input("\n❓ 请输入问题（输入 'quit' 退出）: ")
    if query == "quit":
        break
    result = qa_chain({"query": query})
    print(f"\n💡 回答:\n{result['result']}")
    # 显示引用来源
    print("\n📚 参考片段:")
    for i, doc in enumerate(result["source_documents"]):
        print(f"[{i+1}] {doc.page_content[:100]}...")

ollama pull llama3:8b # 或 llama3:70b（需 48GB+ 内存）

python query_kb.py

场景	优化方案
GPU 资源充足	使用 `vLLM` 替代 Ollama：`pip install vllm` + `--model meta-llama/Llama-3.1-8B-Instruct`
大文档集（>10 万页）	改用 Qdrant：`docker run -p 6333:6333 qdrant/qdrant`
低延迟要求	将 Embedding 模型转为 ONNX 格式（提速 2–3x）

需求	方案
Web 界面	集成 `Gradio` 或 `Streamlit`
自动更新	监听 `./docs` 目录变动，增量更新向量库
多模态支持	用 `Donut` 解析 PDF 表格，转为结构化文本
Agent 能力	接入 `LangGraph` 实现多跳推理

组件	选用方案	启动命令
LLM	Ollama + Llama 3.1 8B	`ollama run llama3:8b`
Embedding	BAAI/bge-large-zh-v1.5	自动加载
向量库	ChromaDB	`./chroma_db` 文件夹
框架	LangChain	`pip install langchain`

Chroma + Ollama + Llama 3.1 搭建本地知识库

搭建本地知识库

一、整体架构设计（RAG + 向量检索 + 本地 LLM）

二、推荐技术栈（2026 年最佳实践）

三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例）

步骤 1：安装基础环境

更多推荐文章

相关免费在线工具

步骤 2：安装 Python 依赖

步骤 3：准备知识文档

步骤 4：构建向量知识库（Python 脚本）

步骤 5：启动问答服务（RAG 推理）

四、安全与性能优化建议

1. 隐私保护

2. 性能调优

3. 中文增强

五、验证知识库效果

测试用例：

六、进阶扩展方向

总结：你的本地知识库技术栈

更多推荐文章

相关免费在线工具

Chroma + Ollama + Llama 3.1 搭建本地知识库

搭建本地知识库

一、整体架构设计（RAG + 向量检索 + 本地 LLM）

二、推荐技术栈（2026 年最佳实践）

三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例）

步骤 1：安装基础环境

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤 2：安装 Python 依赖

步骤 3：准备知识文档

步骤 4：构建向量知识库（Python 脚本）

步骤 5：启动问答服务（RAG 推理）

四、安全与性能优化建议

1. 隐私保护

2. 性能调优

3. 中文增强

五、验证知识库效果

测试用例：

六、进阶扩展方向

总结：你的本地知识库技术栈

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具