用 FastAPI 和大模型搭一个 RAG 知识库 | 极客日志

PythonAI大前端

用 FastAPI 和大模型搭一个 RAG 知识库

这套 RAG 知识库方案用 FastAPI、tortoise-orm 和异步 LLM 调用串起文档解析、切块、向量化、检索与回答生成。文档先以 .docx 为主，通过 DocumentChunk 拆分内容，再用 LLMEngine 统一接入 OpenAI、AzureOpenAI、Moonshot 等模型，支持流式对话和阻塞式调用。向量侧先生成 QA 结构及 embedding，再借助向量库做相似度检索，最后把召回的上下文交给模型生成回答。整体实现偏基础，但路径清楚，适合先把知识库主链路跑通，再补 PDF 解析、索引策略和重排。

二进制发布于 2026/6/30更新于 2026/7/22 浏览

用 FastAPI 和大模型搭一个 RAG 知识库

这套流程的目标很明确：把文档喂进去，切块、向量化、入库，再在用户提问时把相关片段捞出来交给大模型生成回答。听起来顺手，真正落地时反而是细节多，尤其是文档规整和检索召回这两段，做不好后面都会变味。

系统里主要用到 FastAPI、tortoise-orm 和异步模型调用，LLM 侧先接 OpenAI、AzureOpenAI、Moonshot，后面要扩展别的模型也不难。整体代码是围绕一个 LLMEngine 包起来的，调用层尽量保持一致，这样上层流程不用跟着不同厂商的 SDK 反复改。

文档规整

当前先支持 .docx，pdf 还没补上。这个选择算务实：先把最常见的结构化文档跑通，后面再补复杂格式，不然一开始就被解析兼容性拖住，整个链路很难看出问题在哪。

文档处理模块的职责是把非结构化文本拆成适合模型处理的片段，同时把图片资源路径一起处理好。

# /ExileChat/test/test_ai/test_document_chunk.py

from utils.ai.document_chunk import DocumentChunk

if __name__ == "__main__":
    # 文档的路径或静态资源服务器的地址
    file_path = "./data/测试文档.docx"

    # 文档中图片存放的路径或图片服务器的地址，image_base_path 与 image_base_url 使用其一即可
    image_base_path = "./data/images"
    image_base_url = "https://example.com/images"

    dc = DocumentChunk(image_base_path=image_base_path, is_debug=True)
    content = dc.process_file(file_path)
    print(f"Extracted content length: {len(content)}")

大模型调用

调用大模型前，api_key 和对应文档都得准备好。这里支持 OpenAI、AzureOpenAI、Moonshot，底层做成一个客户端工厂，外层只关心模型名和配置。

模型客户端封装

# /ExileChat/utils/ai/llm_engine.py

class ModelClient:
    """Models Client"""
    api_key: str = None
    kwargs: dict = {}

    @classmethod
    def open_ai():
        
        
        


     ():
        
        
        


     ():
        
        
        


 :
    

     ():
        .model_name = model_name
        .api_key = api_key
        .is_debug = is_debug
        .args = args
        .kwargs = kwargs

        ModelClient.api_key = api_key
        ModelClient.kwargs = kwargs
        .client_dict = {
            : ModelClient.open_ai,
            : ModelClient.azure_open_ai,
            : ModelClient.moonshot,
        }
        .client = .client_dict.get(model_name)()

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

# /ExileChat/app/api/chat_ws/chat_ws.py

from fastapi import APIRouter, WebSocket, Depends
from starlette.websockets import WebSocketDisconnect

chat_ws_router = APIRouter()

@chat_ws_router.websocket("/{token}/{chat_id}")
async def chat(websocket: WebSocket, token: str, chat_id: str, user: dict = Depends(check_user)):
    """WebSocket 对话接口"""
    await websocket.accept()

    if not user:
        await websocket.close(code=1008)
        raise Exception("鉴权验证失败")

    try:
        while True:
            data = await websocket.receive_text()
            
            llm_engine = LLMEngine(model_name='azure_open_ai', api_key=api_key)
            llm_engine.system_prompt = "你是一名 Python 专家"
            response_generator = llm_engine.chat(input=data)

            async for chunk in response_generator:
                if isinstance(chunk, str):
                    await websocket.send_text(chunk)
                else:
                    print(type(chunk), chunk)

            await websocket.close()
            break
    except Exception as e:
        print(f"WebSocket 连接发生异常：{e}")
        await websocket.close()

# /ExileChat/test/test_ai/test_llm_engine.py

import asyncio
from utils.ai.llm_engine import LLMEngine

async def main():
    new_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")
    new_engine.system_prompt = "你是一名 Python 专家"
    response_generator = new_engine.chat(input="Python 是什么时候诞生的")

    async for chunk in response_generator:
        if isinstance(chunk, str):
            print(f"Received: {chunk}")
        else:
            print(f"Received chunk type: {type(chunk)}, value: {chunk}")

if __name__ == "__main__":
    asyncio.run(main())

# /ExileChat/test/test_ai/test_llm_engine_only.py

import asyncio
from utils.ai.llm_engine import LLMEngine

async def main():
    new_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")
    generated_message = await new_engine.chat_only(prompt="你是强大的人工智能", input="你是谁？")
    print(generated_message)

if __name__ == "__main__":
    asyncio.run(main())

import asyncio
from utils.ai.llm_engine import LLMEngine

async def main():
    llm_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")

    question = "1+1 等于多少"
    answer = "等于 2"
    question_embedding = await llm_engine.embedding(text=question)
    answer_embedding = await llm_engine.embedding(text=answer)
    return question_embedding, answer_embedding

if __name__ == "__main__":
    asyncio.run(main())

# /ExileChat/test/test_ai/test_document_vector.py

import asyncio
from utils.ai.document_chunk import DocumentChunk
from utils.ai.document_vector import DocumentVector
from utils.ai.llm_engine import LLMEngine

async def main():
    is_debug = True
    file_path = "./data/测试文档分段.docx"
    
    # 1. 文档分块
    dc = DocumentChunk(image_base_path="./data/images", is_debug=is_debug)
    document_content = dc.process_file(file_path)

    # 2. 初始化引擎
    llm_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key", is_debug=is_debug)
    
    # 3. 构建向量对象
    dv = DocumentVector(document_content=document_content, llm_engine=llm_engine, is_debug=is_debug)
    
    # 4. 执行生成任务
    await dv.gen_chunks()      # 生成段落
    await dv.gen_qa()          # 生成 QA 对
    await dv.gen_qa_vector()   # 生成向量

if __name__ == '__main__':
    asyncio.run(main())

[
    {"index": 1, "chunk": "段落 1"},
    {"index": 2, "chunk": "段落 2"}
]

[
    {
        "Q": "什么是 Python 中的协程？",
        "A": "Python 中的协程是一种用于实现异步编程的机制...",
        "chunks": ["Python 中的协程是一种用于实现异步编程的机制..."]
    }
]

{
    'able_id': 0,
    'document_id': 0,
    'answer': '1+1 等于 2',
    'question': '1+1 等于几？',
    'chunks': ["1+1=2", "..."],
    'answer_embedding': [0.027..., -0.010..., ...],
    'question_embedding': [0.027..., -0.010..., ...]
}

# /ExileChat/utils/ai/rag_retriever.py

import asyncio
from typing import List, Dict
from utils.ai.llm_engine import LLMEngine
from database.vector_store import VectorStore  # 假设存在的向量存储类

class RagRetriever:
    def __init__(self, llm_engine: LLMEngine, vector_store: VectorStore):
        self.llm_engine = llm_engine
        self.vector_store = vector_store

    async def retrieve(self, query: str, top_k: int = 3) -> List[Dict]:
        """检索相关片段"""
        # 1. 问题向量化
        query_embedding = await self.llm_engine.embedding(text=query)
        
        # 2. 向量检索
        results = await self.vector_store.search(query_embedding, limit=top_k)
        return results

    async def generate_answer(self, query: str, context: List[str]) -> str:
        """基于上下文生成回答"""
        prompt_template = f"""
        请根据以下提供的背景信息回答问题。如果背景信息不足以回答问题，请直接说明。
        
        背景信息：
        {chr(10).join(context)}
        
        问题：{query}
        
        回答：
        """
        
        response = await self.llm_engine.chat_only(prompt=prompt_template, input="")
        return response

    async def process_query(self, query: str) -> str:
        """完整流程"""
        context_list = []
        results = await self.retrieve(query)
        
        for item in results:
            context_list.append(item['answer'])
            context_list.extend(item['chunks'])
        
        return await self.generate_answer(query, context_list)

# 使用示例
async def test_rag():
    llm_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")
    # 初始化向量库连接
    vector_store = VectorStore(collection_name="knowledge_base") 
    retriever = RagRetriever(llm_engine, vector_store)
    
    final_answer = await retriever.process_query("1+1 等于多少？")
    print(final_answer)

if __name__ == "__main__":
    asyncio.run(test_rag())

用 FastAPI 和大模型搭一个 RAG 知识库

用 FastAPI 和大模型搭一个 RAG 知识库

文档规整

大模型调用

模型客户端封装

更多推荐文章

相关免费在线工具

WebSocket 实时对话

多轮对话与流式响应

一次对话，阻塞响应

向量化处理

生成向量化数据结构

核心流程

数据结构说明

向量化应答（RAG 检索）

检索逻辑

代码示例

收尾

更多推荐文章

相关免费在线工具

用 FastAPI 和大模型搭一个 RAG 知识库

用 FastAPI 和大模型搭一个 RAG 知识库

文档规整

大模型调用

模型客户端封装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

WebSocket 实时对话

多轮对话与流式响应

一次对话，阻塞响应

向量化处理

生成向量化数据结构

核心流程

数据结构说明

向量化应答（RAG 检索）

检索逻辑

代码示例

收尾

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具