RAG 应用落地关键痛点与解决策略分析 | 极客日志

PythonAI算法

RAG 应用落地关键痛点与解决策略分析

RAG 应用落地面临格式错误、内容缺失、检索排名低、上下文整合限制、答案提取失败、回答宽泛及不全面、数据处理能力不足等八大痛点。针对格式问题可通过精准 Prompt、输出解析器及 Pydantic 模式规范；内容缺失需优化数据源与提示词引导模型承认未知；检索问题涉及重排序、调整 chunk 参数及微调 Embedding 模型；上下文整合与答案提取依赖清理数据、压缩长文本及重排节点；回答质量提升需结合高级检索策略与查询优化技术如 HyDE；数据处理则利用并行管道加速。基于 LlamaIndex 框架提供具体代码示例与解决方案。

www发布于 2025/2/6更新于 2026/7/2134 浏览

受 Barnett 等人所著的《Seven Failure Points When Engineering a Retrieval Augmented Generation System》一文启发，本文将探讨其中提到的几个关键问题。更重要的是，我们将深入探讨如何应对这些 RAG 系统中的挑战，以便在日常开发中更好地解决这些问题。

格式错误

当我们告诉计算机以某种特定格式（比如表格或 JSON）来整理信息，但大型语言模型（LLM）没能按照预期输出。为了更好地引导计算机理解我们的需求，我们可以通过以下方法来确保得到想要的格式：

更精准的 Prompt

让指令更加明确。

简化问题并突出关键词。

提供示例。

循环提问，不断细化问题。

解析输出

为任何查询提供格式化指南。

对计算机的回答进行'解析'。

LlamaIndex 支持与其他框架如 Guardrails 和 LangChain 提供的输出解析模块集成。

Guardrails: https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/output_parser.html#guardrails

LangChain: https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/output_parser.html#langchain

具体使用方法，可参考：https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/output_parser.html

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index.output_parsers import LangchainOutputParser
from llama_index.llms import OpenAI
from langchain.output_parsers import StructuredOutputParser, ResponseSchema

# 加载文档，构建索引
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 定义输出模式
response_schemas = [
    ResponseSchema(
        name="Education",
        description="描述作者的教育经历/背景。",
    ),
    ResponseSchema(
        name="Work",
        description="描述作者的工作经验/背景。",
    ),
]

# 定义输出解析器
lc_output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
output_parser = LangchainOutputParser(lc_output_parser)


llm = OpenAI(output_parser=output_parser)


 llama_index  ServiceContext

ctx = ServiceContext.from_defaults(llm=llm)
query_engine = index.as_query_engine(service_context=ctx)

response = query_engine.query()
((response))

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from pydantic import BaseModel
from typing import List
from llama_index.program import OpenAIPydanticProgram

# 定义输出架构（不带文档字符串）
class Song(BaseModel):
    title: str
    length_seconds: int

class Album(BaseModel):
    name: str
    artist: str
    songs: List[Song]

# 定义 openai pydantic 程序
prompt_template_str = """
生成一个示例专辑，其中包含艺术家和歌曲列表。
以电影 movie_name 为灵感
"""

program = OpenAIPydanticProgram.from_defaults(
    output_cls=Album,
    prompt_template_str=prompt_template_str,
    verbose=True
)

# 运行程序以获得结构化输出
output = program(
    movie_name="The Shining",
    description="专辑的数据模型。"
)

finetune_engine = SentenceTransformersFinetuneEngine(
    train_dataset,
    model_id="BAAI/bge-small-en",
    model_output_path="test_model",
    val_dataset=val_dataset,
)
finetune_engine.finetune()
embed_model = finetune_engine.get_finetuned_model()

from llama_index.query_engine import RetrieverQueryEngine
from llama_index.response_synthesizers import CompactAndRefine
from llama_index.postprocessor import LongLLMLinguaPostprocessor
from llama_index.schema import QueryBundle

node_postprocessor = LongLLMLinguaPostprocessor(
    instruction_str="鉴于上下文，请回答最后一个问题",
    target_token=300,
    rank_method="longllmlingua",
    additional_compress_kwargs={
        "condition_compare": True,
        "condition_in_question": "after",
        "context_budget": "+100",
        "reorder_context": "sort", # 启用文档重新排序
    },
)

retrieved_nodes = retriever.retrieve(query_str)
synthesizer = CompactAndRefine()

# 在 RetrieverQueryEngine 中概述步骤以提高清晰度：
# 处理（压缩）、合成
new_retrieved_nodes = node_postprocessor.postprocess_nodes(
    retrieved_nodes, query_bundle=QueryBundle(query_str=query_str)
)

print("\n\n".join([n.get_content() for n in new_retrieved_nodes]))
response = synthesizer.synthesize(query_str, new_retrieved_nodes)

from llama_index.postprocessor import LongContextReorder
reorder = LongContextReorder()
reorder_engine = index.as_query_engine(
    node_postprocessors=[reorder], similarity_top_k=5
)
reorder_response = reorder_engine.query("作者见过山姆·奥尔特曼吗？")

documents = SimpleDirectoryReader(input_dir="./data/source_files").load_data()

# 创建带有转换的管道
pipeline = IngestionPipeline(
    transformations=[
        SentenceSplitter(chunk_size=1024, chunk_overlap=20),
        TitleExtractor(),
        OpenAIEmbedding(),
    ]
)

# 将 num_workers 设置为大于 1 的值将调用并行执行。
nodes = pipeline.run(documents=documents, num_workers=4)

RAG 应用落地关键痛点与解决策略分析

格式错误

更精准的 Prompt

解析输出

更多推荐文章

相关免费在线工具

Pydantic

OpenAI JSON 模式

内容缺失问题

错过排名靠前的文档

1. 重新排名检索结果

2. 调整 chunk_size 和相似度排名 similarity_top_k

脱离上下文 — 整合策略的限制

1. 优化检索策略

2. 微调 Embedding 模型

未能提取答案

1. 清理数据

2. 上下文压缩

3. LongContextReorder 重排

回答过于宽泛

回答不全面

数据处理能力的挑战

总结

更多推荐文章

相关免费在线工具

RAG 应用落地关键痛点与解决策略分析

格式错误

更精准的 Prompt

解析输出

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Pydantic

OpenAI JSON 模式

内容缺失问题

错过排名靠前的文档

1. 重新排名检索结果

2. 调整 chunk_size 和相似度排名 similarity_top_k

脱离上下文 — 整合策略的限制

1. 优化检索策略

2. 微调 Embedding 模型

未能提取答案

1. 清理数据

2. 上下文压缩

3. LongContextReorder 重排

回答过于宽泛

回答不全面

数据处理能力的挑战

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具