Adaptive RAG 系统搭建：从向量检索到 Streamlit 前端全流程 | 极客日志

PythonAI算法

Adaptive RAG 系统搭建：从向量检索到 Streamlit 前端全流程

介绍如何从零搭建 Adaptive RAG 系统，结合 LangGraph 构建有状态工作流，FastAPI 提供后端服务，Streamlit 构建前端界面。内容涵盖技术选型、系统架构、核心代码实现（包括自适应检索逻辑、LangGraph 节点定义、API 接口及 UI 交互）以及生产部署建议。通过该方案可实现根据查询复杂度动态调整检索深度，提升 RAG 系统的准确率与可维护性。

芝士奶盖发布于 2026/4/6更新于 2026/7/546 浏览

Adaptive RAG 系统搭建：从向量检索到 Streamlit 前端全流程

本文介绍如何从零搭建 Adaptive RAG 系统，技术栈涵盖 Adaptive RAG、LangGraph、FastAPI 和 Streamlit 四个核心组件。Adaptive RAG 负责根据查询复杂度自动调整检索策略；LangGraph 把多步 LLM 推理组织成有状态的可靠工作流；FastAPI 作为高性能后端暴露整条 AI 管道；Streamlit 则提供一个可以直接交互的前端界面。

要构建的是一个技术支持智能助手。它能理解用户查询，根据问题复杂度动态选择检索深度（Adaptive RAG），通过 LangGraph 执行推理工作流，经由 FastAPI 返回结果，最后在 Streamlit UI 上呈现响应。

这个场景针对的是一个真实痛点：团队面对大规模文档集时，传统 RAG 在模糊查询或多步骤问题上经常答非所问。

技术概览

Adaptive RAG

可以把 Adaptive RAG 理解为'搜索之前先思考'的 RAG。简单查询走轻量级检索就够了，遇到复杂问题则自动切换到多跳深度搜索、重排序或查询扩展，用更低的延迟换更高的准确率。

LangGraph

LangGraph 是用来构建有状态、多步骤 AI 工作流的框架。和传统链式调用不同它把 LLM 工作流建模成一张图——每个节点对应一个步骤（检索 → 推理 → 验证 → 响应），原生支持重试、记忆、循环和故障转移。对于需要在生产环境中保证可预测行为的场景，这种抽象比线性 chain 灵活得多。

FastAPI

FastAPI 把 Adaptive RAG + LangGraph 包装成 API 接口对外暴露，处理请求分发，天然适配异步 I/O。

Streamlit

前端用 Streamlit 搭建，聊天风格的界面，不需要写 HTML/CSS 做 POC 演示足够了。

系统架构

文章配图

数据流走向：

User → Query → Streamlit UI → Sends request → FastAPI → Passes query → LangGraph → Runs Adaptive RAG → Retriever → Gets chunks → Vector DB → Returns results → LangGraph → Generates final response → FastAPI → Sends to UI → User

文件夹结构

项目结构尽量精简：

ai-poc/
├── backend/ # 后端逻辑
│   ├── app.py # FastAPI API 服务器
│   ├── rag_pipeline.py # Adaptive RAG 检索
│   ├── graph_workflow.py # LangGraph 工作流
│   ├── config.py # 配置和环境设置
│   ├── data/ # 源文档
│   └── __init__.py # 包初始化器
├── frontend/ # UI 层
│   ├── ui.py # Streamlit 界面
│   └── __init__.py # 包初始化器
├── .env 
├── requirements.txt 
└── README.md

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

fastapi uvicorn[standard] streamlit requests pydantic langchain langchain-community langgraph faiss-cpu sentence-transformers openai python-dotenv

# backend/rag_pipeline.py
from typing import List
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document

class AdaptiveRAG:
    """ Adaptive Retrieval Pipeline """
    def __init__(self, vector_db: FAISS):
        self.db = vector_db

    def retrieve(self, query: str) -> List[Document]:
        if not query.strip():
            return []
        # Adaptive heuristic
        token_count = len(query.split())
        k = 3 if token_count < 6 else 8
        return self.db.similarity_search(query, k=k)

def build_vector_store(texts: List[str]) -> FAISS:
    """ Build FAISS index from raw texts (POC only). In production load persisted DB instead. """
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2"
    )
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=100
    )
    docs = []
    for text in texts:
        chunks = splitter.split_text(text)
        for chunk in chunks:
            docs.append(chunk)
    return FAISS.from_texts(docs, embeddings)

# backend/graph_workflow.py
from typing import TypedDict, List
from langgraph.graph import StateGraph, END
from langchain.schema import Document
from langchain_openai import ChatOpenAI

class GraphState(TypedDict):
    question: str
    docs: List[Document]
    answer: str

def create_workflow(rag):
    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
    workflow = StateGraph(GraphState)

    # Retrieval Node
    async def retrieve_node(state: GraphState):
        docs = rag.retrieve(state["question"])
        return {"docs": docs}

    # Reasoning Node
    async def reasoning_node(state: GraphState):
        question = state["question"]
        docs = state.get("docs", [])
        context = "\n\n".join([d.page_content for d in docs])
        prompt = f"""
        You are a technical assistant. Use ONLY the context below to answer the question.
        If the answer is not in the context, say you don't know.
        Context: {context}
        Question: {question}
        """
        response = await llm.ainvoke(prompt)
        return {"answer": response.content}

    # Add nodes
    workflow.add_node("retrieve", retrieve_node)
    workflow.add_node("reason", reasoning_node)

    # Connect nodes
    workflow.set_entry_point("retrieve")
    workflow.add_edge("retrieve", "reason")
    workflow.add_edge("reason", END)
    return workflow.compile()

# backend/app.py
import os
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from dotenv import load_dotenv
from rag_pipeline import AdaptiveRAG, build_vector_store
from graph_workflow import create_workflow

load_dotenv()

app = FastAPI(title="Adaptive RAG API")

# ---------------------------
# Startup Initialization
# ---------------------------
class AskRequest(BaseModel):
    query: str

@app.on_event("startup")
async def startup_event():
    global workflow
    # Sample knowledge base (replace with real docs)
    sample_docs = [
        "LangGraph supports stateful workflows and retry logic.",
        "Adaptive RAG dynamically changes retrieval depth based on query complexity.",
        "FastAPI is a high-performance async Python framework.",
    ]
    vector_db = build_vector_store(sample_docs)
    rag = AdaptiveRAG(vector_db)
    workflow = create_workflow(rag)

# ---------------------------
# API Endpoint
# ---------------------------
@app.post("/ask")
async def ask(payload: AskRequest):
    if not payload.query.strip():
        raise HTTPException(status_code=400, detail="Query cannot be empty")
    try:
        result = await workflow.ainvoke({"question": payload.query})
        return {"response": result["answer"]}
    except Exception as e:
        raise HTTPException(
            status_code=500, detail="Internal RAG processing error"
        )

# frontend/ui.py
import streamlit as st
import requests

API_URL = "http://localhost:8000/ask"

st.set_page_config(page_title="Adaptive RAG Assistant")
st.title("Adaptive RAG Support Assistant")
query = st.text_input("Enter your question")

if st.button("Ask"):
    if not query.strip():
        st.warning("Please enter a question.")
    else:
        try:
            with st.spinner("Thinking..."):
                response = requests.post(
                    API_URL, json={"query": query}, timeout=60
                )
                response.raise_for_status()
                answer = response.json()["response"]
                st.markdown("### Answer:")
                st.write(answer)
        except Exception as e:
            st.error(f"Error: {e}")

pip install -r requirements.txt

export OPENAI_API_KEY="your_key_here"
# Or(For Windows)
setx OPENAI_API_KEY "your_key_here"

uvicorn backend.app:app --reload

streamlit run frontend/ui.py

How does retry logic work in LangGraph workflows?

Adaptive RAG 系统搭建：从向量检索到 Streamlit 前端全流程

技术概览

Adaptive RAG

LangGraph

FastAPI

Streamlit

系统架构

文件夹结构

更多推荐文章

相关免费在线工具

代码实现（关键代码片段）

Adaptive RAG 管道（rag_pipeline.py）

LangGraph 工作流（graph_workflow.py）

FastAPI 后端（app.py）

Streamlit UI（ui.py）

运行项目

内部执行流程

下一步：生产部署

检索层

工作流

重试与回退

可观测性与评估

UI 改进

部署与基础设施

总结

更多推荐文章

相关免费在线工具

Adaptive RAG 系统搭建：从向量检索到 Streamlit 前端全流程

技术概览

Adaptive RAG

LangGraph

FastAPI

Streamlit

系统架构

文件夹结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码实现（关键代码片段）

Adaptive RAG 管道（rag_pipeline.py）

LangGraph 工作流（graph_workflow.py）

FastAPI 后端（app.py）

Streamlit UI（ui.py）

运行项目

内部执行流程

下一步：生产部署

检索层

工作流

重试与回退

可观测性与评估

UI 改进

部署与基础设施

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具