RAG 系统优化：应对 7 大挑战提升 LLM 性能 | 极客日志

PythonAI算法

RAG 系统优化：应对 7 大挑战提升 LLM 性能

RAG 系统在应用大型语言模型时面临检索不准确、上下文限制、格式错误等挑战。详细分析了缺失内容、未命中排名靠前、上下文不足、格式错误、回答不完整、未能检索信息及具体性不正确这七大核心问题，并提供了数据清洗、提示工程、参数调整、检索策略优化及输出解析器等具体解决方案。通过优化检索流程与生成逻辑，可显著提升系统的准确性与用户体验。

王初壹发布于 2025/2/6更新于 2026/6/2425 浏览

RAG 优化技巧：7 大挑战与解决方案

在当今快速发展的人工智能领域，大型语言模型（LLM）已经成为无处不在的技术，它们不仅改变了我们与机器交流的方式，还在各行各业中发挥着革命性的影响。

然而，尽管 LLM + RAG（检索增强生成）的能力已经让人惊叹，但在实际使用 RAG 优化 LLM 的过程中，我们仍会遇到许多挑战和困难。常见问题包括检索器返回不准确或不相关的数据，以及基于错误或过时信息生成答案。本文旨在提出 RAG 常见的 7 大挑战，并附带各自相应的优化方案，帮助改善 RAG 系统的表现。

下图展示了 RAG 系统的两个主要流程：检索和查询；红色方框代表可能会遇到的挑战点，主要有 7 项：

Missing Content: 缺失内容
Missed Top Ranked: 错误排序内容，导致正确答案没有被成功 Retrieve
Not in Context: 上下文限制，导致正确答案没有被采用
Wrong Format: 格式错误
Incomplete: 回答不全面
Not Extracted: 未能检索信息
Incorrect Specificity: 不合适的详细回答

这些挑战不仅关系到系统的可用性和准确性，还直接影响到用户对技术的信任度。为了解决这些问题，以下是针对每个挑战的优化方案：

缺失内容（Missing Content）

当 RAG 系统面对的问题无法从现有文件中得到答案时，就会出现这种情况。在最佳情况下，我们希望 RAG 系统直接回答「我不知道」。然而，实际上 RAG 系统常常会编造或错误回答问题。

针对这个问题，目前有两大解决策略：

1. 数据清理

俗话说"吃什么、吐什么"。原始数据质量对信息处理系统的准确性至关重要。若输入数据错误或矛盾，或者预处理步骤不当，则无论检索增强生成（RAG）系统有多先进，也无法从混乱数据中提取有价值信息。这意味着我们必须在数据源选择、数据清洗、预处理等环节投入资源和技术，以确保输入数据尽可能准确和一致。这个策略不仅适用于本文讨论的问题，也适用于所有数据处理流程中，数据质量始终是关键。

2. Prompt 工程

在知识库缺乏相关信息、导致系统可能给出看似合理但实际上错误答案的情况下，使用提示工程是一个非常有帮助的解决方式。例如通过设定提示："如果你对答案不确定，就直接告诉我你不知道"，如此可以鼓励模型采取更谨慎和诚实的回应态度，从而避免误导用户。虽然不能保证系统回答的绝对准确性，但通过这样的提示，确实能提高回答品质。

未命中排名靠前的内容（Missed Top Ranked）

这个挑战主要在于"答案在文件中，但由于排名靠前而未能提供给用户"。理论上，检索系统会为每个文档分配一个排名，此排名将决定其在后续处理中的使用程度。然而，在实际操作中，受限于性能和资源，通常只有排名最高的前 K 个文档会被选取并展示给用户。这里的 K 是基于性能考虑的参数。

针对该问题，存在两种解决方式：

1. 调整参数以优化搜索效果

该部分提出了两个方面调整以增加 RAG 效率和准确性：chunk_size。

如果要直接在 langchain 调整块大小，请使用以下代码：

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=100)
all_splits = text_splitter.split_documents(PDF_data)

k 值涉及到检索器应该返回多少个答案，我们可以选择返回更多的答案，以确保正确答案不会被 LLM 忽略：

retriever = vectordb.as_retriever(search_kwargs={"k": 8})

qa = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type="stuff", 
    retriever=retriever, 
    verbose=
)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

retriever = vectordb.as_retriever(search_kwargs={"k": 8})
query = "What can you tell me about the Celtics?"

# 按相关度分数排序获取相关文档
docs = retriever.get_relevant_documents(query)

# 重新排序文件：
# 列表中不太相关的文件将排在中间位置。开始/结尾处的相关要素。
reordering = LongContextReorder()
reordered_docs = reordering.transform_documents(docs)

# 确认前后共有 4 份相关文件。
print(reordered_docs)

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CohereRerank
from langchain_community.llms import Cohere

retriever = vectordb.as_retriever(search_kwargs={"k": 8})
query = "What can you tell me about the Celtics?"

# 按相关性得分排序以获取相关文件
docs = retriever.get_relevant_documents(query)

# 使用 Cohere 重新排名端点来对返回的结果进行重新排名
llm = Cohere(temperature=0)
compressor = CohereRerank()
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

compressed_docs = compression_retriever.get_relevant_documents(
    "What did the president say about Ketanji Jackson Brown"
)
pretty_print_docs(compressed_docs)

finetune_engine = SentenceTransformersFinetuneEngine(
    train_dataset,
    model_id="BAAI/bge-small-en",
    model_output_path="test_model",
    val_dataset=val_dataset,
)

finetune_engine.finetune()

embed_model = finetune_engine.get_finetuned_model()

from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import OpenAI

model = OpenAI(model_name="gpt-3.5-turbo-instruct", temperature=0.0)

# 定义您想要的数据结构。
class Joke(BaseModel):
    setup: str = Field(description="question to set up a joke")
    punchline: str = Field(description="answer to resolve the joke")

    # 可以通过 Pydantic 轻松添加自定义验证逻辑。
    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("Badly formed question!")
        return field

# 设置一个解析器 + 将指令注入到提示模板中。
parser = PydanticOutputParser(pydantic_object=Joke)

prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

# And a query intended to prompt a language model to populate the data structure.
prompt_and_model = prompt | model
output = prompt_and_model.invoke({"query": "Tell me a joke."})
parser.invoke(output)

from typing import List

from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import ChatOpenAI

model = ChatOpenAI(temperature=0)

# 定义你期望的数据结构。
class Joke(BaseModel):
    setup: str = Field(description="question to set up a joke")
    punchline: str = Field(description="answer to resolve the joke")

    # 可以很容易地使用 Pydantic 添加自定义验证逻辑。
    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("Badly formed question!")
        return field

# 一个用来促使语言模型填充数据结构的查询意图。
joke_query = "Tell me a joke."

# 设置一个解析器 + 将指令注入到提示模板中。
parser = PydanticOutputParser(pydantic_object=Joke)

prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

chain = prompt | model | parser

chain.invoke({"query": joke_query})

from langchain.llms import OpenAI
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import LLMChain, HypotheticalDocumentEmbedder
from langchain.prompts import PromptTemplate

base_embeddings = OpenAIEmbeddings()
llm = OpenAI()

# Load with `web_search` prompt
embeddings = HypotheticalDocumentEmbedder.from_llm(llm, base_embeddings, "web_search")

# 现在我们可以将其用作任何嵌入类！
result = embeddings.embed_query("Where is the Taj Mahal?")

from llama_index.query_engine import RetrieverQueryEngine
from llama_index.response_synthesizers import CompactAndRefine
from llama_index.postprocessor import LongLLMLinguaPostprocessor
from llama_index.schema import QueryBundle

node_postprocessor = LongLLMLinguaPostprocessor(
    instruction_str="Given the context, please answer the final question",
    target_token=300,
    rank_method="longllmlingua",
    additional_compress_kwargs={
        "condition_compare": True,
        "condition_in_question": "after",
        "context_budget": "+100",
        "reorder_context": "sort",  # enable document reorder
    },
)

retrieved_nodes = retriever.retrieve(query_str)
synthesizer = CompactAndRefine()

## 梳理 RetrieverQueryEngine 中的步骤，以确保清晰易懂。
## 后处理（压缩），合成
new_retrieved_nodes = node_postprocessor.postprocess_nodes(
    retrieved_nodes, query_bundle=QueryBundle(query_str=query_str)
)

print("\n\n".join([n.get_content() for n in new_retrieved_nodes]))

response = synthesizer.synthesize(query_str, new_retrieved_nodes)

RAG 系统优化：应对 7 大挑战提升 LLM 性能

RAG 优化技巧：7 大挑战与解决方案

缺失内容（Missing Content）

1. 数据清理

2. Prompt 工程

未命中排名靠前的内容（Missed Top Ranked）

1. 调整参数以优化搜索效果

更多推荐文章

相关免费在线工具

2. 优化检索文档的排序

2.1 Long-Context Reorder

2.2 Cohere Reranker

Not in Context（上下文限制）

1. 调整检索策略

2. 微调 Embedding

格式错误

1. 改进 Prompt

2. 输出解析器

3. Pydantic Parser

回答不完整

查询转换

Not Extracted（未能检索信息）

1. 数据清洗

2. 信息压缩

3. LongContextReorder

不正确的具体性（Incorrect Specificity）

总结与最佳实践

更多推荐文章

相关免费在线工具

RAG 系统优化：应对 7 大挑战提升 LLM 性能

RAG 优化技巧：7 大挑战与解决方案

缺失内容（Missing Content）

1. 数据清理

2. Prompt 工程

未命中排名靠前的内容（Missed Top Ranked）

1. 调整参数以优化搜索效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 优化检索文档的排序

2.1 Long-Context Reorder

2.2 Cohere Reranker

Not in Context（上下文限制）

1. 调整检索策略

2. 微调 Embedding

格式错误

1. 改进 Prompt

2. 输出解析器

3. Pydantic Parser

回答不完整

查询转换

Not Extracted（未能检索信息）

1. 数据清洗

2. 信息压缩

3. LongContextReorder

不正确的具体性（Incorrect Specificity）

总结与最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具