基于 Chroma 与 Ollama 构建本地 RAG 应用 | 极客日志

PythonAI算法

基于 Chroma 与 Ollama 构建本地 RAG 应用

综述由AI生成基于 Chroma 与 Ollama 构建本地 RAG 应用。通过本地部署 LLM 和 Embedding 模型，结合 LangChain 框架实现网页内容的向量化存储与检索增强生成。教程涵盖环境配置、数据分块、Prompt 优化及 Gradio 界面构建，提供完整的本地化知识库问答解决方案。重点介绍了参数调优、向量持久化及最佳实践，确保应用稳定高效运行。

机器人发布于 2025/2/6更新于 2026/6/325 浏览

基于 Chroma 与 Ollama 构建本地 RAG 应用

本文介绍如何利用 Ollama 在本地运行大语言模型（LLM），并结合 ChromaDB、LangChain 建立一个小型的基于网页内容的本地问答 RAG（Retrieval Augmented Generation）应用。

概念介绍

LLM (Large Language Model)

通过海量文本数据集（书籍、网站等）训练出来的具备通用语言理解和生成能力的模型。虽然它可以推理许多内容，但其知识仅限于特定时间点之前用于训练的数据。

LangChain

一个用于开发由大型语言模型驱动的应用程序的框架。提供了丰富的接口、组件和能力，简化了构建 LLM 应用程序的过程。

Ollama

一个免费的开源框架，可以让大模型很容易地运行在本地电脑上，支持多种模型的高效推理。

RAG (Retrieval Augmented Generation)

一种利用额外数据增强 LLM 知识的技术。它通过从外部数据库获取当前或相关上下文信息，并在请求 LLM 生成响应时呈现给它，从而解决了生成不正确或误导性信息的问题。

工作流程如下：

用户提问。
系统检索相关文档片段。
将检索结果与问题组合成 Prompt。
LLM 基于上下文生成回答。

RAG Workflow

环境搭建

1. 安装与下载模型

依据 Ollama 使用指南完成大模型的本地下载和运行。

# 下载 LLM 模型
ollama pull llama3
# 下载 Embedding 模型
ollama pull nomic-embed-text

2. 安装 Python 依赖

安装 langchain、langchain-community、bs4 等库。

pip install langchain langchain-community bs4 gradio

3. 初始化 LangChain Ollama 对象

from langchain_community.llms import Ollama
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

# 初始化 LLM，开启流式输出
llm = Ollama(
    model="llama3",
    temperature=0.1,
    top_p=,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()])
)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import bs4
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

loader = WebBaseLoader(
    web_paths=("https://vuejs.org/guide/introduction.html",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(class_=("content",))
    ),
)
docs = loader.load()

# chunk_size: 分块大小
# chunk_overlap: 分块重叠部分，有助于降低将语句与其相关的重要上下文分开的可能性
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings

vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=OllamaEmbeddings(model="nomic-embed-text")
)

ollama pull herald/dmeta-embedding-zh:latest

from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate(
    input_variables=['context', 'question'],
    template="""
    You are an assistant for question-answering tasks.
    Use the following pieces of retrieved context to answer the question.
    If you don't know the answer, just say you don't know without any explanation.
    Question: {question}
    Context: {context}
    Answer:
    """
)

from langchain.chains import RetrievalQA

retriever = vectorstore.as_retriever()
qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt}
)

# 测试问答
question = "what is vue?"
result = qa_chain.invoke({"query": question})
print(result["result"])

import gradio as gr
from langchain_community.llms import Ollama
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings
from langchain.chains import RetrievalQA
from langchain_core.prompts import PromptTemplate

def init_ollama_llm(model, temperature, top_p):
    return Ollama(
        model=model,
        temperature=temperature,
        top_p=top_p,
        callback_manager=CallbackManager([StreamingStdOutCallbackHandler()])
    )

def content_web(url):
    loader = WebBaseLoader(web_paths=(url,))
    docs = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
    splits = text_splitter.split_documents(docs)
    return splits

def chroma_retriever_store_content(splits):
    vectorstore = Chroma.from_documents(
        documents=splits,
        embedding=OllamaEmbeddings(model="nomic-embed-text")
    )
    return vectorstore.as_retriever()

def rag_prompt():
    return PromptTemplate(
        input_variables=['context', 'question'],
        template="""
        You are an assistant for question-answering tasks.
        Use the following pieces of retrieved context to answer the question.
        If you don't know the answer, just say you don't know without any explanation.
        Question: {question}
        Context: {context}
        Answer:
        """
    )

def ollama_rag_chroma_web_content(web_url, question, temperature, top_p):
    llm = init_ollama_llm('llama3', temperature, top_p)
    splits = content_web(web_url)
    retriever = chroma_retriever_store_content(splits)
    qa_chain = RetrievalQA.from_chain_type(
        llm, 
        retriever=retriever, 
        chain_type_kwargs={"prompt": rag_prompt()}
    )
    return qa_chain.invoke({"query": question})["result"]

demo = gr.Interface(
    fn=ollama_rag_chroma_web_content,
    inputs=[
        gr.Textbox(label="web_url", value="https://vuejs.org/guide/introduction.html", info="爬取内容的网页地址"),
        "text",
        gr.Slider(0, 1, step=0.1, label="Temperature"),
        gr.Slider(0, 1, step=0.1, label="Top P")
    ],
    outputs="text",
    title="Ollama+RAG Example",
    description="输入网页的 URL，然后提问，获取答案"
)

demo.launch()

vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=OllamaEmbeddings(model="nomic-embed-text"),
    persist_directory="./chroma_db"
)

基于 Chroma 与 Ollama 构建本地 RAG 应用

基于 Chroma 与 Ollama 构建本地 RAG 应用

概念介绍

LLM (Large Language Model)

LangChain

Ollama

RAG (Retrieval Augmented Generation)

环境搭建

1. 安装与下载模型

2. 安装 Python 依赖

3. 初始化 LangChain Ollama 对象

更多推荐文章

相关免费在线工具

数据处理与向量化

1. 获取网页内容并分块

2. 嵌入向量数据库

3. 设置 Prompt 规范输出

4. 实现检索问答链

构建用户界面

整合代码

优化与最佳实践

1. 分块策略调整

2. 向量存储持久化

3. 多模态与混合搜索

总结

更多推荐文章

相关免费在线工具

基于 Chroma 与 Ollama 构建本地 RAG 应用

基于 Chroma 与 Ollama 构建本地 RAG 应用

概念介绍

LLM (Large Language Model)

LangChain

Ollama

RAG (Retrieval Augmented Generation)

环境搭建

1. 安装与下载模型

2. 安装 Python 依赖

3. 初始化 LangChain Ollama 对象

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据处理与向量化

1. 获取网页内容并分块

2. 嵌入向量数据库

3. 设置 Prompt 规范输出

4. 实现检索问答链

构建用户界面

整合代码

优化与最佳实践

1. 分块策略调整

2. 向量存储持久化

3. 多模态与混合搜索

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具