基于 Chroma 和 Ollama 搭建本地 RAG 应用 | 极客日志

PythonAI算法

基于 Chroma 和 Ollama 搭建本地 RAG 应用

综述由AI生成如何使用 Ollama 本地部署大语言模型，结合 ChromaDB 向量数据库和 LangChain 框架构建本地 RAG 问答应用。内容包括环境配置、模型加载、网页内容解析与分块、向量化存储、提示词工程以及使用 Gradio 构建交互界面。通过该方案可实现基于私有数据的离线智能问答，无需依赖云端 API。同时补充了常见问题处理与性能优化建议，帮助用户更好地落地本地 AI 应用。

花里胡哨发布于 2025/2/6更新于 2026/6/522 浏览

本篇文章我们将基于 Ollama 本地运行大语言模型（LLM），并结合 ChromaDB、LangChain 来建立一个小型的基于网页内容进行本地问答的 RAG 应用。

概念介绍

先简单了解下这些术语：

LLM (Large Language Model) 是通过使用海量的文本数据集（书籍、网站等）训练出来的，具备通用语言理解和生成的能力。虽然它可以推理许多内容，但它们的知识仅限于特定时间点之前用于训练的数据。

LangChain 是一个用于开发由大型语言模型（LLM）驱动的应用程序的框架。提供了丰富的接口、组件、能力简化了构建 LLM 应用程序的过程。

Ollama 是一个免费的开源框架，可以让大模型很容易的运行在本地电脑上。

RAG（Retrieval Augmented Generation）是一种利用额外数据增强 LLM 知识的技术，它通过从外部数据库获取当前或相关上下文信息，并在请求大型语言模型（LLM）生成响应时呈现给它，从而解决了生成不正确或误导性信息的问题。

工作流程如下：

加载并解析网页内容。
将文本分割成块（Chunking）。
使用嵌入模型将文本转换为向量。
将向量存储到向量数据库（Chroma）。
用户提问时检索相关向量。
结合检索内容与 Prompt 生成回答。

基于上述 RAG 步骤，接下来我们将使用代码完成它。

开始搭建

1. 环境准备

依据 Ollama 使用指南完成大模型的本地下载和运行。

# LLM
ollama pull llama3
# Embedding Model
ollama pull nomic-embed-text

2. 安装依赖

安装 langchain、langchain-community、bs4 等库。

pip install langchain langchain-community bs4

3. 初始化 LangChain 对象

初始化 langchain 提供的 Ollama 对象，配置流式输出。

from langchain_community.llms import Ollama
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

# 1. 初始化 llm, 让其流式输出
llm = Ollama(
    model="llama3", 
    temperature=0.1, 
    top_p=, 
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()])
)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import bs4
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

loader = WebBaseLoader(
    web_paths=("https://vuejs.org/guide/introduction.html#html",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("content",),
        )
    ),
)
docs = loader.load()

# chunk_overlap：分块的重叠部分
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings

vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=OllamaEmbeddings(model="nomic-embed-text")
)

ollama pull herald/dmeta-embedding-zh:latest

from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate(
    input_variables=['context', 'question'],
    template=
    """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the 
    question. you don't know the answer, just say you don't know 
    without any explanation Question: {question} Context: {context} Answer:""",
)

from langchain.chains import RetrievalQA

retriever = vectorstore.as_retriever()

qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt}
)

question = "what is vue?"
result = qa_chain.invoke({"query": question})
print(result["result"])

question = "what is react?"
result = qa_chain.invoke({"query": question})
print(result["result"])

import gradio as gr
from langchain_community.llms import Ollama
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings
from langchain.chains import RetrievalQA
from langchain_core.prompts import PromptTemplate

def init_ollama_llm(model, temperature, top_p):
    return Ollama(
        model=model,
        temperature=temperature,
        top_p=top_p,
        callback_manager=CallbackManager([StreamingStdOutCallbackHandler()])
    )

def content_web(url):
    loader = WebBaseLoader(web_paths=(url,))
    docs = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
    splits = text_splitter.split_documents(docs)
    return splits

def chroma_retriever_store_content(splits):
    vectorstore = Chroma.from_documents(
        documents=splits,
        embedding=OllamaEmbeddings(model="nomic-embed-text")
    )
    return vectorstore.as_retriever()

def rag_prompt():
    return PromptTemplate(
        input_variables=['context', 'question'],
        template=
        """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the 
        question. you don't know the answer, just say you don't know 
        without any explanation Question: {question} Context: {context} Answer:""",
    )

def ollama_rag_chroma_web_content(web_url, question, temperature, top_p):
    llm = init_ollama_llm('llama3', temperature, top_p)
    splits = content_web(web_url)
    retriever = chroma_retriever_store_content(splits)
    qa_chain = RetrievalQA.from_chain_type(llm, retriever=retriever, chain_type_kwargs={"prompt": rag_prompt()})
    return qa_chain.invoke({"query": question})["result"]

demo = gr.Interface(
    fn=ollama_rag_chroma_web_content,
    inputs=[
        gr.Textbox(label="web_url", value="https://vuejs.org/guide/introduction.html", info="爬取内容的网页地址"),
        "text",
        gr.Slider(0, 1, step=0.1),
        gr.Slider(0, 1, step=0.1)
    ],
    outputs="text",
    title="Ollama+RAG Example",
    description="输入网页的 URL，然后提问，获取答案"
)

demo.launch()

基于 Chroma 和 Ollama 搭建本地 RAG 应用

概念介绍

开始搭建

1. 环境准备

2. 安装依赖

3. 初始化 LangChain 对象

更多推荐文章

相关免费在线工具

4. 获取 RAG 检索内容并分块

5. 向量化存储

6. 设置 Prompt 规范输出

7. 实现检索问答

构建用户界面

常见问题与优化建议

更多推荐文章

相关免费在线工具

基于 Chroma 和 Ollama 搭建本地 RAG 应用

概念介绍

开始搭建

1. 环境准备

2. 安装依赖

3. 初始化 LangChain 对象

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 获取 RAG 检索内容并分块

5. 向量化存储

6. 设置 Prompt 规范输出

7. 实现检索问答

构建用户界面

常见问题与优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具