RAG 架构工程实践：分块策略、混合检索与重排序 | 极客日志

PythonAI算法

RAG 架构工程实践：分块策略、混合检索与重排序

介绍将 RAG 系统从 Demo 推向生产的五个关键层级。包括基础向量检索的局限性、智能分块策略（尺寸与重叠）、混合搜索（语义+关键词）、重排序（Cross-Encoder）以及生产级护栏与评估机制。重点在于通过优化检索质量和增加异常兜底逻辑，解决幻觉和召回不准问题，确保系统在实际业务中的可靠性。

技术博主发布于 2026/3/24更新于 2026/5/518 浏览

RAG 架构工程实践：分块策略、混合检索与重排序

把一个 RAG 系统从 Demo 做到生产，中间要解决 5 个问题。

最初的版本就是标准版：全量文档 embedding，向量检索，LLM 生成。演示没出过问题，但是翻车发生在数据留存政策的时候，因为系统召回了两段废弃条款和一段聊'员工留存'的 HR 文档，然后把这三段内容揉成了一个看似完整实则全错的回答。

这不是检索的问题，也不纯粹是模型的问题。从分块方式到搜索策略，从排序逻辑到异常兜底，每一层都藏着独立的故障模式。

文章配图

Level 1：Naive RAG

文档做 embedding，存向量，按相似度取 top-k，丢给模型生成。流程就这么简单：

from openai import OpenAI
import chromadb

client = OpenAI()
chroma = chromadb.Client()
collection = chroma.create_collection("docs")

def index_document(doc_id: str, text: str):
    response = client.embeddings.create(
        model="text-embedding-3-small", input=text
    )
    collection.add(
        ids=[doc_id],
        embeddings=[response.data[0].embedding],
        documents=[text]
    )

def naive_rag(query: str, k: int = 3) -> str:
    # Embed query
    query_embedding = client.embeddings.create(
        model="text-embedding-3-small", input=query
    ).data[0].embedding
    
    # Retrieve
    results = collection.query(
        query_embeddings=[query_embedding], n_results=k
    )
    
    # Generate
    context = "\n\n".join(results["documents"][0])
    response = client.chat.completions.create(
        model="gpt-4",
        messages=[
            {: , : },
            {: , : query}
        ]
    )
     response.choices[].message.content

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=400,
    chunk_overlap=100,  # This is the key
    separators=["\n\n", "\n", ". ", " ", ""]
)

def chunk_with_metadata(doc: str, source: str, doc_date: str) -> list[dict]:
    chunks = splitter.split_text(doc)
    return [
        {
            "text": chunk,
            "source": source,
            "date": doc_date,
            "section": extract_section_header(chunk),
        }
        for chunk in chunks
    ]

from rank_bm25 import BM25Okapi
import numpy as np

class HybridRetriever:
    def __init__(self, documents: list[str]):
        self.documents = documents
        self.embeddings = self._embed_all(documents)
        # BM25 for keyword matching
        tokenized = [doc.lower().split() for doc in documents]
        self.bm25 = BM25Okapi(tokenized)

    def _embed_all(self, docs: list[str]) -> list[list[float]]:
        response = client.embeddings.create(
            model="text-embedding-3-small", input=docs
        )
        return [d.embedding for d in response.data]

    def search(self, query: str, k: int = 5, alpha: float = 0.5) -> list[str]:
        # Semantic scores (normalized)
        q_emb = client.embeddings.create(
            model="text-embedding-3-small", input=query
        ).data[0].embedding
        sem_scores = np.dot(self.embeddings, q_emb)
        sem_scores = (sem_scores - sem_scores.min()) / (sem_scores.max() - sem_scores.min() + 1e-8)
        
        # BM25 scores (normalized)
        bm25_scores = np.array(self.bm25.get_scores(query.lower().split()))
        if bm25_scores.max() > 0:
            bm25_scores = bm25_scores / bm25_scores.max()
        
        # Combine: alpha controls semantic vs keyword weight
        combined = alpha * sem_scores + (1 - alpha) * bm25_scores
        top_k = np.argsort(combined)[::-1][:k]
        return [self.documents[i] for i in top_k]

from sentence_transformers import CrossEncoder

class RerankedRetriever:
    def __init__(self, documents: list[str]):
        self.hybrid = HybridRetriever(documents)
        self.reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")

    def search(self, query: str, k: int = 3) -> list[str]:
        # Get 20 candidates (cheap, fast)
        candidates = self.hybrid.search(query, k=20)
        
        # Rerank with cross-encoder (expensive, accurate)
        pairs = [(query, doc) for doc in candidates]
        scores = self.reranker.predict(pairs)
        
        # Return top k after reranking
        reranked = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)
        return [doc for doc, _ in reranked[:k]]

def guarded_rag(query: str, retriever, min_score: float = 0.6) -> str:
    results = retriever.search_with_scores(query, k=3)
    
    # Check: Do we have ANY confident results?
    top_score = results[0][1] if results else 0
    if top_score < min_score:
        return (
            "I don't have enough information to answer that confidently. "
            "Could you rephrase, or is there a specific document I should look at?"
        )
    
    # Check: Are sources from different time periods?
    dates = [r["date"] for r, _ in results]
    if len(set(dates)) > 1:
        newest = max(dates)
        if any(d < newest for d in dates):
            date_warning = "\n\n[Note: Some sources are older. The most recent policy takes precedence.]"
    else:
        date_warning = ""

    # Generate with explicit grounding instruction
    context = "\n\n---\n\n".join([r["text"] for r, _ in results])
    response = client.chat.completions.create(
        model="gpt-4",
        messages=[
            {
                "role": "system",
                "content": f"""Answer based ONLY on the provided context. If the context doesn't contain enough information, say so explicitly. Never infer or make up information not directly stated. Context: {context}"""
            },
            {"role": "user", "content": query}
        ]
    )
    return response.choices[0].message.content + date_warning

test_cases = [
    {
        "query": "What's our data retention policy for customer records?",
        "must_retrieve": ["data-retention-policy-2024.md"],
        "answer_must_contain": ["7 years", "deletion request"],
        "answer_must_not_contain": ["2019", "employee retention"]
    },
    # ... 50+ more cases covering your actual use cases
]