Chroma + Ollama + Llama 3.1 搭建本地知识库 | 极客日志

PythonAI算法

Chroma + Ollama + Llama 3.1 搭建本地知识库

本地私有知识库系统利用 RAG 架构结合向量检索与大语言模型，提升 AI 助手专业性并保障数据安全。方案选用 ChromaDB 存储向量、BGE 模型处理中文嵌入，配合 Ollama 运行 Llama 3.1 进行推理。通过 LangChain 实现文档解析与问答链，支持本地化部署与隐私保护。内容涵盖环境搭建、脚本编写、性能调优及效果验证，帮助开发者快速构建可扩展的本地知识库。

Pythonist发布于 2026/4/10更新于 2026/7/2131 浏览

作为大模型开发人员，搭建一套 本地私有知识库系统（Local RAG Pipeline）是提升 AI 助手专业性、保障数据安全、避免幻觉的关键基础设施。以下是一套经过生产验证、开源免费、支持中文且可扩展性强的技术栈方案与详细搭建步骤。

整体架构设计

原始文档（PDF/Word/TXT/Markdown）经过解析和分块后，通过向量化存入向量数据库，最终由本地运行的 LLM 推理引擎结合检索结果回答用户问题。整个流程闭环在本地完成。

组件	推荐方案	选择理由
文档解析	`Unstructured` + `PyPDF2` / `docx2txt`	支持 PDF/Word/PPT/HTML，保留表格结构
文本分块	`LangChain` RecursiveCharacterTextSplitter	智能按段落/句子切分，避免语义割裂
嵌入模型（Embedding）	BAAI/bge-large-zh-v1.5（中文）或 nomic-ai/nomic-embed-text-v1.5（多语言）	中文 SOTA，4096 上下文，HuggingFace 开源
向量数据库	ChromaDB（轻量）或 Qdrant（高性能）	Chroma：单机文件存储，零配置；Qdrant：支持过滤、分布式，适合未来扩展
大模型推理	Ollama + Llama 3.1 8B/70B或 vLLM（高吞吐）	Ollama：一键启动，API 兼容 OpenAI；vLLM：PagedAttention，吞吐提升 24x
应用框架	LangChain 或 LlamaIndex	LangChain：生态丰富，调试工具完善

具体搭建步骤

环境准备

首先安装基础环境。确保 Python 版本在 3.10 以上，然后安装 Ollama 并启动服务。

# 安装 Python ≥3.10
sudo apt install python3-pip

# 安装 Ollama（自动下载 Llama 3）
curl -fsSL https://ollama.com/install.sh | sh

# 启动 Ollama 服务（后台运行）
ollama serve &

接着安装 Python 依赖包。

pip install langchain chromadb unstructured PyPDF2 python-docx sentence-transformers

准备知识文档

将你的知识文件放入目录，支持 , , , , 等格式。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

./docs/

.pdf

.docx

.txt

.md

.html

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
import os

# 1. 加载文档
loader = DirectoryLoader('./docs', glob="**/*.pdf", show_progress=True)
docs = loader.load()

# 2. 文本分块（按字符递归切分）
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n","\n","。","！","？","；"," ",""]
)
chunks = text_splitter.split_documents(docs)

# 3. 加载中文 Embedding 模型
# 注意：若无 GPU 请将 device 改为 'cpu'
embeddings = HuggingFaceEmbeddings(
    model_name="BAAI/bge-large-zh-v1.5",
    model_kwargs={'device': 'cuda'}
)

# 4. 存入 Chroma 向量库（持久化到 ./chroma_db）
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)
vectorstore.persist()
print(f"✅ 知识库构建完成！共 {len(chunks)} 个片段")

python build_kb.py

ollama pull llama3:8b # 或 llama3:70b（需 48GB+ 内存）

from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.llms import Ollama
from langchain.chains import RetrievalQA

# 加载向量库
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-large-zh-v1.5")
vectorstore = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)

# 初始化本地 LLM（Ollama 需提前 pull 模型）
llm = Ollama(model="llama3:8b", temperature=0.1)

# 构建 RAG 链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k":3}),
    return_source_documents=True
)

# 问答循环
while True:
    query = input("\n❓ 请输入问题（输入 'quit' 退出）: ")
    if query == "quit":
        break
    result = qa_chain({"query": query})
    print(f"\n💡 回答:\n{result['result']}")
    # 显示引用来源
    print("\n📚 参考片段:")
    for i, doc in enumerate(result["source_documents"]):
        print(f"[{i+1}] {doc.page_content[:100]}...")

python query_kb.py

场景	优化方案
GPU 资源充足	使用 `vLLM` 替代 Ollama：`pip install vllm` + `--model meta-llama/Llama-3.1-8B-Instruct`
大文档集（>10 万页）	改用 Qdrant：`docker run -p 6333:6333 qdrant/qdrant`
低延迟要求	将 Embedding 模型转为 ONNX 格式（提速 2–3x）

需求	方案
Web 界面	集成 `Gradio` 或 `Streamlit`
自动更新	监听 `./docs` 目录变动，增量更新向量库
多模态支持	用 `Donut` 解析 PDF 表格，转为结构化文本
Agent 能力	接入 `LangGraph` 实现多跳推理

组件	选用方案	启动命令
LLM	Ollama + Llama 3.1 8B	`ollama run llama3:8b`
Embedding	BAAI/bge-large-zh-v1.5	自动加载
向量库	ChromaDB	`./chroma_db` 文件夹
框架	LangChain	`pip install langchain`

Chroma + Ollama + Llama 3.1 搭建本地知识库

整体架构设计

推荐技术栈

具体搭建步骤

环境准备

准备知识文档

更多推荐文章

相关免费在线工具

构建向量知识库

启动问答服务

安全与性能优化建议

隐私保护

性能调优

中文增强

验证知识库效果

测试用例

进阶扩展方向

总结

更多推荐文章

相关免费在线工具

Chroma + Ollama + Llama 3.1 搭建本地知识库

整体架构设计

推荐技术栈

具体搭建步骤

环境准备

准备知识文档

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

构建向量知识库

启动问答服务

安全与性能优化建议

隐私保护

性能调优

中文增强

验证知识库效果

测试用例

进阶扩展方向

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具