大模型应用开发中的高级 RAG 技术详解
大模型应用开发中检索增强生成(RAG)的高级技术涵盖查询转换、智能体及后处理三大模块。查询转换包括重写、多路召回、假设文档嵌入及后退一步提示词;智能体利用函数调用自动选择数据源;后处理涉及长文本重排序、上下文压缩、回答细化及情感提示工程。结合 LangChain 与 LlamaIndex 实现,旨在优化检索上下文质量,提升大模型回答的准确性与相关性。

大模型应用开发中检索增强生成(RAG)的高级技术涵盖查询转换、智能体及后处理三大模块。查询转换包括重写、多路召回、假设文档嵌入及后退一步提示词;智能体利用函数调用自动选择数据源;后处理涉及长文本重排序、上下文压缩、回答细化及情感提示工程。结合 LangChain 与 LlamaIndex 实现,旨在优化检索上下文质量,提升大模型回答的准确性与相关性。

最近一直在探索 RAG 相关的技术,并且分析了 langchain 和 llamaindex 相关技术实现,现在总结和分享一些自己的经验。
我们借助下面论文中的截图,来说明目前 RAG 技术的进展。
Retrieval-Augmented Generation for Large Language Models: A Survey

除了在用户的输入 query 上做文章外,还有更多的操作是进行后处理,比如多路召回和重排序。而且最新的技术也增加了很多新模块,比如 self-RAG 这篇文章就引入了自我性,通过训练一个新的 LLM 去自适应地按需检索段落,并生成和反映检索到的段落和它自己的生成结果。但这个方法的流程太长,是否适合线上的实际环境,需要真实场景的验证。
从 langchain 以及 llama 的实现,以及论文中提及到内容,这次分享 RAG 的高阶技术分为了三个大模块:
一个是Query Transformation,也就是针对用户 query 的相关操作; 第二个是Agent技术,本质上利用大模型的能力去调用函数来实现更复杂的功能; 第三个是Post-process 也就是后处理,在我们检索到上下文之后,可以使用一些后处理的方法去对数据进行处理,以便得到更优质的上下文信息。
像重排序、多路召回技术这些都比较常见了,就不再做过多的阐述。
query transformation 主要就是利用各种技巧和大模型的能力,去对用户的 query 进行改写,转换等操作,丰富 query 的语义信息。
因为对于 LLM 而言,原始查询不可能总是最佳检索,尤其是在现实世界中,我们首先提示 LLM 重写查询,然后进行检索增强阅读。这个技术可以参考下面 langchain 中的示例,本质还是使用了提示词工程,去编写改写的提示词,这部分提示词也是可以优化的地方。
template = """Provide a better search query for \
web search engine to answer the given question, end \
the queries with '**'. Question: \
{x} Answer:"""
rewrite_prompt = ChatPromptTemplate.from_template(template)
def _parse(text):
return text.strip("**")
distracted_query = "man that sam bankman fried trial was crazy! what is langchain?"
rewriter = rewrite_prompt | ChatOpenAI(temperature=0) | StrOutputParser() | _parse
rewriter.invoke({"x": distracted_query})
本质上是 query rewrite 的改进版,可以同时生成 n 个和用户 query 相似的 query,然后同时进行检索,这样能确保召回的内容尽可能的符合原始 query。具体可以参考下面的代码,需要 langchian 的最新版本。
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI
question = "What are the approaches to Task Decomposition?"
llm = ChatOpenAI(temperature=0)
retriever_from_llm = MultiQueryRetriever.from_llm(
retriever=vectordb.as_retriever(), llm=llm
)
Hyde 全称是Hypothetical Document Embeddings,通过 LLM 对用户的 query 生成一篇假设性的文档,然后根据这个文档的向量去查找相似的 N 个向量。核心的原理就是,生成的假设性文档要比 query 更接近于 embedding 空间。
随着版本的迭代,langchain 的文档中对 hyde 的说明有些变化,从源码中可以看到是内置了多种提示词模板的。
PROMPT_MAP = {
"web_search": web_search,
"sci_fact": sci_fact,
"arguana": arguana,
"trec_covid": trec_covid,
"fiqa": fiqa,
"dbpedia_entity": dbpedia_entity,
"trec_news": trec_news,
"mr_tydi": mr_tydi,
}
可以参考下面这段代码的实现。
from langchain_openai import OpenAI
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import LLMChain, HypotheticalDocumentEmbedder
from langchain.prompts import PromptTemplate
base_embeddings = OpenAIEmbeddings()
llm = OpenAI()
embeddings = HypotheticalDocumentEmbedder.from_llm(llm, base_embeddings, "web_search")
result = embeddings.embed_query("Where is the Taj Mahal?")
通过首先回答一个 后退一步 的问题,然后将这个问题检索到的答案和 用户的 QA 对 检索到的信息放在一起,让大模型进行回答。
这个提示词的思路就是,如果一个问题很难回答,则可以首先提出一个能帮助回答这个问题,但是粒度更粗、更简单的问题,下图是 Step-Back 的提示词的实现思路和介绍。

核心提示词可以参考下面这段代码。
You are an expert of world knowledge. I am going to ask you a question.
Your response should be comprehensive and not contradicted with the following context if they are relevant.
Otherwise, ignore them if they are not relevant.\n
\n{normal_context}\n
{step_back_context}\n
\nOriginal Question: {question}\n
Answer:
Step-back 的提示词可以参考下面这段进行实现和优化。
You are an expert at world knowledge.
Your task is to step back and paraphrase a question to a more generic step-back question, which is easier to answer.
Here are a few examples:
核心是利用大模型的 Function call 功能和提示词工程,去执行一些策略,比如当有多个数据源时,自动选择需要检索的数据源。
当有多个数据源的时候,使用路由技术,将 query 定位到指定的数据源。可以参考 llamaindex 的实现,相对比较简单和清晰。
from llama_index.tools.types import ToolMetadata
from llama_index.selectors.llm_selectors import (
LLMSingleSelector,
LLMMultiSelector,
)
tool_choices = [
ToolMetadata(
name="covid_nyt",
description=("This tool contains a NYT news article about COVID-19"),
),
ToolMetadata(
name="covid_wiki",
description=("This tool contains the Wikipedia page about COVID-19"),
),
ToolMetadata(
name="covid_tesla",
description=("This tool contains the Wikipedia page about apples"),
),
]
selector_result = selector.select(
tool_choices, query="Tell me more about COVID-19"
)
主要对用户检索之后的上下文进行优化,这里介绍几个比较常用的。
根据论文 Lost in the Middle: How Language Models Use Long Contexts 的实验表明,大模型更容易记忆开头和结尾的文档,而对中间部分的文档记忆能力不强,因此可以根据召回的文档和 query 的相关性进行重排序。

核心的代码可以参考 langchain 的实现:
def _litm_reordering(documents: List[Document]) -> List[Document]:
"""Lost in the middle reorder: the less relevant documents will be at the
middle of the list and more relevant elements at beginning / end.
See: https://arxiv.org/abs//2307.03172"""
documents.reverse()
reordered_result = []
for i, value in enumerate(documents):
if i % 2 == 1:
reordered_result.append(value)
else:
reordered_result.insert(0, value)
return reordered_result
本质上利用 LLM 去判断检索之后的文档和用户 query 的相关性,只返回相关度最高的 k 个。
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain_openai import OpenAI
llm = OpenAI(temperature=0)
compressor = LLMChainExtractor.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
base_compressor=compressor, base_retriever=retriever
)
compressed_docs = compression_retriever.get_relevant_documents(
"What did the president say about Ketanji Jackson Brown"
)
print(compressed_docs)
对最后大模型生成的回答进行进一步的改写,保证回答的准确性。主要涉及提示词工程,参考的提示词如下:
The original query is as follows: {query_str}
We have provided an existing answer: {existing_answer}
We have the opportunity to refine the existing answer (only if needed) with some more context below.
------------
{context_msg}
------------
Given the new context, refine the original answer to better answer the query. If the context isn't useful, return the original answer.
Refined Answer:
同样是提示词工程的一部分,思路来源于微软的论文:
Large Language Models Understand and Can Be Enhanced by Emotional Stimuli
在论文中,微软研究员提出,在提示词中增加一些情绪情感相关的提示,有助于大模型输出高质量的回答。
参考提示词如下:
emotion_stimuli_dict = {
"ep01": "Write your answer and give me a confidence score between 0-1 for your answer. ",
"ep02": "This is very important to my career. ",
"ep03": "You'd better be sure.",
# add more from the paper here!!
}
# NOTE: ep06 is the combination of ep01, ep02, ep03
emotion_stimuli_dict["ep06"] = (
emotion_stimuli_dict["ep01"]
+ emotion_stimuli_dict["ep02"]
+ emotion_stimuli_dict["ep03"]
)
from llama_index.prompts import PromptTemplate
qa_tmpl_str = """\
Context information is below.
---------------------
{context_str}
---------------------
Given the context information and not prior knowledge, \
answer the query.
{emotion_str}
Query: {query_str}
Answer: \
"""
qa_tmpl = PromptTemplate(qa_tmpl_str)
以上方法可根据实际业务场景灵活组合,以达到最佳的检索效果。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online