AI 知识库：基于 FastAPI 与 LLM 实现 RAG 流程基础功能 | 极客日志

PythonAI算法

AI 知识库：基于 FastAPI 与 LLM 实现 RAG 流程基础功能

AI 知识库基于 RAG 流程，利用 FastAPI 异步框架结合 OpenAI 等大模型实现。涵盖文档分块、LLM 引擎调用（流式/阻塞）、向量生成及检索应答。通过 DocumentChunk 处理 docx 文件，LLMEngine 管理模型交互，DocumentVector 构建 QA 对并生成嵌入向量。检索阶段计算问题与答案向量距离，匹配最相似片段后由大模型生成最终回复，实现垂直领域智能问答系统。

二进制发布于 2025/2/6更新于 2026/5/3118 浏览

AI 知识库 - RAG 流程基础功能实现

本文介绍如何基于 FastAPI 与 tortoise-orm 等异步方式结合 openai 等大模型服务，实现 RAG（检索增强生成）流程的基础功能。系统支持文档解析、向量化存储及智能问答。

文档规整

当前主要支持 .docx 类型文件，后续计划补充 .pdf 等格式。文档处理模块负责将非结构化文本转换为适合大模型处理的片段。

# /ExileChat/test/test_ai/test_document_chunk.py

from utils.ai.document_chunk import DocumentChunk

if __name__ == "__main__":
    # 文档的路径或静态资源服务器的地址
    file_path = "./data/测试文档.docx"

    # 文档中图片存放的路径或图片服务器的地址，image_base_path 与 image_base_url 使用其一即可
    image_base_path = "./data/images"
    image_base_url = "https://example.com/images"

    dc = DocumentChunk(image_base_path=image_base_path, is_debug=True)
    content = dc.process_file(file_path)
    print(f"Extracted content length: {len(content)}")

大模型调用

你需要查阅对应大模型的文档以及准备 api_key，按照示例代码进行初始化。当前支持 OpenAI、AzureOpenAI、Moonshot，你可以根据以下代码结构自行添加其他模型。

模型客户端封装

# /ExileChat/utils/ai/llm_engine.py

class ModelClient:
    """Models Client"""
    api_key: str = None
    kwargs: dict = {}

    @classmethod
    def open_ai(cls):
        """OpenAI Client"""
        # 初始化 OpenAI 客户端逻辑
        pass

    @classmethod
     ():
        
        
        


     ():
        
        
        


 :
    

     ():
        .model_name = model_name
        .api_key = api_key
        .is_debug = is_debug
        .args = args
        .kwargs = kwargs

        ModelClient.api_key = api_key
        ModelClient.kwargs = kwargs
        .client_dict = {
            : ModelClient.open_ai,
            : ModelClient.azure_open_ai,
            : ModelClient.moonshot,
        }
        .client = .client_dict.get(model_name)()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# /ExileChat/app/api/chat_ws/chat_ws.py

from fastapi import APIRouter, WebSocket, Depends
from starlette.websockets import WebSocketDisconnect

chat_ws_router = APIRouter()

@chat_ws_router.websocket("/{token}/{chat_id}")
async def chat(websocket: WebSocket, token: str, chat_id: str, user: dict = Depends(check_user)):
    """WebSocket 对话接口"""
    await websocket.accept()

    if not user:
        await websocket.close(code=1008)
        raise Exception("鉴权验证失败")

    try:
        while True:
            data = await websocket.receive_text()
            
            llm_engine = LLMEngine(model_name='azure_open_ai', api_key=api_key)
            llm_engine.system_prompt = "你是一名 Python 专家"
            response_generator = llm_engine.chat(input=data)

            async for chunk in response_generator:
                if isinstance(chunk, str):
                    await websocket.send_text(chunk)
                else:
                    print(type(chunk), chunk)

            await websocket.close()
            break
    except Exception as e:
        print(f"WebSocket 连接发生异常：{e}")
        await websocket.close()

# /ExileChat/test/test_ai/test_llm_engine.py

import asyncio
from utils.ai.llm_engine import LLMEngine

async def main():
    new_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")
    new_engine.system_prompt = "你是一名 Python 专家"
    response_generator = new_engine.chat(input="Python 是什么时候诞生的")

    async for chunk in response_generator:
        if isinstance(chunk, str):
            print(f"Received: {chunk}")
        else:
            print(f"Received chunk type: {type(chunk)}, value: {chunk}")

if __name__ == "__main__":
    asyncio.run(main())

# /ExileChat/test/test_ai/test_llm_engine_only.py

import asyncio
from utils.ai.llm_engine import LLMEngine

async def main():
    new_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")
    generated_message = await new_engine.chat_only(prompt="你是强大的人工智能", input="你是谁？")
    print(generated_message)

if __name__ == "__main__":
    asyncio.run(main())

import asyncio
from utils.ai.llm_engine import LLMEngine

async def main():
    llm_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")

    question = "1+1 等于多少"
    answer = "等于 2"
    question_embedding = await llm_engine.embedding(text=question)
    answer_embedding = await llm_engine.embedding(text=answer)
    return question_embedding, answer_embedding

if __name__ == "__main__":
    asyncio.run(main())

# /ExileChat/test/test_ai/test_document_vector.py

import asyncio
from utils.ai.document_chunk import DocumentChunk
from utils.ai.document_vector import DocumentVector
from utils.ai.llm_engine import LLMEngine

async def main():
    is_debug = True
    file_path = "./data/测试文档分段.docx"
    
    # 1. 文档分块
    dc = DocumentChunk(image_base_path="./data/images", is_debug=is_debug)
    document_content = dc.process_file(file_path)

    # 2. 初始化引擎
    llm_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key", is_debug=is_debug)
    
    # 3. 构建向量对象
    dv = DocumentVector(document_content=document_content, llm_engine=llm_engine, is_debug=is_debug)
    
    # 4. 执行生成任务
    await dv.gen_chunks()      # 生成段落
    await dv.gen_qa()          # 生成 QA 对
    await dv.gen_qa_vector()   # 生成向量

if __name__ == '__main__':
    asyncio.run(main())

[
    {"index": 1, "chunk": "段落 1"},
    {"index": 2, "chunk": "段落 2"}
]

[
    {
        "Q": "什么是 Python 中的协程？",
        "A": "Python 中的协程是一种用于实现异步编程的机制...",
        "chunks": ["Python 中的协程是一种用于实现异步编程的机制..."]
    }
]

{
    'able_id': 0,
    'document_id': 0,
    'answer': '1+1 等于 2',
    'question': '1+1 等于几？',
    'chunks': ["1+1=2", "..."],
    'answer_embedding': [0.027..., -0.010..., ...],
    'question_embedding': [0.027..., -0.010..., ...]
}

# /ExileChat/utils/ai/rag_retriever.py

import asyncio
from typing import List, Dict
from utils.ai.llm_engine import LLMEngine
from database.vector_store import VectorStore  # 假设存在的向量存储类

class RagRetriever:
    def __init__(self, llm_engine: LLMEngine, vector_store: VectorStore):
        self.llm_engine = llm_engine
        self.vector_store = vector_store

    async def retrieve(self, query: str, top_k: int = 3) -> List[Dict]:
        """检索相关片段"""
        # 1. 问题向量化
        query_embedding = await self.llm_engine.embedding(text=query)
        
        # 2. 向量检索
        results = await self.vector_store.search(query_embedding, limit=top_k)
        return results

    async def generate_answer(self, query: str, context: List[str]) -> str:
        """基于上下文生成回答"""
        prompt_template = f"""
        请根据以下提供的背景信息回答问题。如果背景信息不足以回答问题，请直接说明。
        
        背景信息：
        {chr(10).join(context)}
        
        问题：{query}
        
        回答：
        """
        
        response = await self.llm_engine.chat_only(prompt=prompt_template, input="")
        return response

    async def process_query(self, query: str) -> str:
        """完整流程"""
        context_list = []
        results = await self.retrieve(query)
        
        for item in results:
            context_list.append(item['answer'])
            context_list.extend(item['chunks'])
        
        return await self.generate_answer(query, context_list)

# 使用示例
async def test_rag():
    llm_engine = LLMEngine(model_name='azure_open_ai', api_key="your_api_key")
    # 初始化向量库连接
    vector_store = VectorStore(collection_name="knowledge_base") 
    retriever = RagRetriever(llm_engine, vector_store)
    
    final_answer = await retriever.process_query("1+1 等于多少？")
    print(final_answer)

if __name__ == "__main__":
    asyncio.run(test_rag())

AI 知识库：基于 FastAPI 与 LLM 实现 RAG 流程基础功能

AI 知识库 - RAG 流程基础功能实现

文档规整

大模型调用

模型客户端封装

更多推荐文章

相关免费在线工具

WebSocket 实时对话

多轮对话与流式响应

一次对话，阻塞响应

向量化处理

生成向量化数据结构

核心流程

数据结构说明

向量化应答 (RAG 检索)

检索逻辑

代码示例

总结

更多推荐文章

相关免费在线工具

AI 知识库：基于 FastAPI 与 LLM 实现 RAG 流程基础功能

AI 知识库 - RAG 流程基础功能实现

文档规整

大模型调用

模型客户端封装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

WebSocket 实时对话

多轮对话与流式响应

一次对话，阻塞响应

向量化处理

生成向量化数据结构

核心流程

数据结构说明

向量化应答 (RAG 检索)

检索逻辑

代码示例

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具