RAG 评估指南：解析评估指标与代码示例 | 极客日志

PythonAI算法

RAG 评估指南：解析评估指标与代码示例

RAG 系统评估涉及检索评估和响应评估。检索评估关注上下文相关性，常用指标包括精确度、召回率、MRR 和 MAP。响应评估关注忠实度和答案相关性。通过 LangSmith 平台可以方便地创建测试数据集并运行自动化评估器（如 cot_qa），从而迭代改进 RAG 系统的性能与可靠性。 RAG 优化策略、评估指标计算方法以及 LangSmith 的具体实施代码。

月亮邮递员发布于 2025/2/6更新于 2026/6/223 浏览

RAG 评估指南：解析评估指标与代码示例

一、RAG 痛点介绍

在构建检索增强生成（Retrieval-Augmented Generation, RAG）系统时，我们常面临数据质量差、检索不准、生成幻觉等问题。为了优化 RAG 效果，必须建立科学的评估体系。

二、RAG 痛点优化策略

针对常见的 RAG 痛点，以下是最佳实践总结及关键优化点：

1. 数据处理

在使用数据之前，确保数据是干净和结构化的。这包括去除噪音、处理缺失值、标准化格式等。

分段和标注： 将长文档分成较小的段落（chunks），并为每个段落添加相关标签或元数据，以便更好地进行检索和生成。

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗
data.dropna(inplace=True)  # 去除缺失值
data['text'] = data['text'].str.lower()  # 转换为小写
data['text'] = data['text'].str.replace(r'\d+', '', regex=True)  # 去除数字

# 数据分段和标注
def chunk_text(text, chunk_size=200):
    words = text.split()
    chunks = [' '.join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size)]
    return chunks

data['chunks'] = data['text'].apply(chunk_text)

2. Chunk Size 设置

Chunk-size 的设置需要平衡信息量和检索效率。一般来说，较短的 chunk 可以提高检索的准确性，但可能会丢失上下文信息；较长的 chunk 可以保留更多的上下文，但可能会增加冗余信息。常见的 chunk 大小在 100 到 300 个词之间，根据具体应用场景进行调整。

# 设置 chunk 大小
chunk_size = 150  


 ():
    words = text.split()
    chunks = [.join(words[i:i + chunk_size])  i  (, (words), chunk_size)]
     chunks

data[] = data[].apply( x: chunk_text(x, chunk_size))

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from sentence_transformers import SentenceTransformer

# 使用 Sentence-BERT 模型
model = SentenceTransformer('paraphrase-MiniLM-L6-v2')

# 对数据进行 embedding
embeddings = model.encode(data['chunks'].sum())

# 示例 prompt 设计
prompt_template = "请根据以下内容回答问题：\n\n内容：{}\n\n问题：{}"

def create_prompt(content, question):
    return prompt_template.format(content, question)

# 使用示例
content = "这是一个示例内容。"
question = "这段内容的主要观点是什么？"
prompt = create_prompt(content, question)

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 假设我们有一个查询的 embedding
query_embedding = model.encode("示例查询")

# 计算相似度
similarities = cosine_similarity([query_embedding], embeddings)[0]

# 设置 topN 值
topN = 5

# 获取最相似的 topN 个结果
topN_indices = np.argsort(similarities)[-topN:][::-1]
topN_chunks = [data['chunks'].sum()[i] for i in topN_indices]

def calculate_precision(retrieved_docs, relevant_docs):
    """
    计算精确度
    
    参数:
    retrieved_docs (list): 检索到的文档列表
    relevant_docs (list): 相关文档列表
    
    返回:
    float: 精确度
    """
    # 计算检索到的相关文档数量
    relevant_retrieved_docs = [doc for doc in retrieved_docs if doc in relevant_docs]
    
    # 计算精确度
    precision = len(relevant_retrieved_docs) / len(retrieved_docs) if retrieved_docs else 0
    return precision

# 示例数据
retrieved_docs = ['doc1', 'doc2', 'doc3', 'doc4', 'doc5']
relevant_docs = ['doc2', 'doc4', 'doc6']

# 计算精确度
precision = calculate_precision(retrieved_docs, relevant_docs)
print(f"精确度：{precision:.2f}")

def calculate_recall(retrieved_docs, relevant_docs):
    """
    计算召回率
    
    参数:
    retrieved_docs (list): 检索到的文档列表
    relevant_docs (list): 相关文档列表
    
    返回:
    float: 召回率
    """
    # 计算检索到的相关文档数量
    relevant_retrieved_docs = [doc for doc in retrieved_docs if doc in relevant_docs]
    
    # 计算召回率
    recall = len(relevant_retrieved_docs) / len(relevant_docs) if relevant_docs else 0
    return recall

# 示例数据
retrieved_docs = ['doc1', 'doc2', 'doc3', 'doc4', 'doc5']
relevant_docs = ['doc2', 'doc4', 'doc6', 'doc7']

# 计算召回率
recall = calculate_recall(retrieved_docs, relevant_docs)
print(f"召回率：{recall:.2f}")

import os
os.environ['LANGCHAIN_TRACING_V2'] = 'true'
os.environ['LANGCHAIN_ENDPOINT'] = 'https://api.smith.langchain.com'
os.environ['LANGCHAIN_API_KEY'] = '<your-api-key>'
os.environ['LANGCHAIN_PROJECT'] = "my project name"

# 问题与答案
examples = [
    (
        "What is LangChain?",
        "LangChain is an open-source framework for building applications using large language models. It is also the name of the company building LangSmith.",
    ),
    (
        "Can I trace my Llama V2 llm?",
        "So long as you are using one of LangChain's LLM implementations, all your calls can be traced",
    ),
]

# 数据库创建部分
from langsmith import Client
client = Client()

import uuid
dataset_name = f"Retrieval QA Questions {str(uuid.uuid4())}"
dataset = client.create_dataset(dataset_name=dataset_name)
for q, a in examples:
    client.create_example(
        inputs={"question": q}, outputs={"answer": a}, dataset_id=dataset.id
    )

import langsmith
from langchain import chat_models, prompts, smith
from langchain.schema import output_parser
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
import bs4
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("./240327-ollama-20question.html")
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)
splits = text_splitter.split_documents(docs)
vectorstore = Chroma.from_documents(documents=splits, embedding=OllamaEmbeddings(model="mofanke/acge_text_embedding"))
retriever = vectorstore.as_retriever()

from langchain.prompts import ChatPromptTemplate
template = """你是一个回答问题的助手。请使用以下检索到的背景信息来回答问题。如果你不知道答案，直接说你不知道。请用最多三句话来保持回答的简洁性。
问题：{question} 

背景：{context} 

答案："""

prompt = ChatPromptTemplate.from_template(template)

#llm = chat_models.ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
llm = Ollama(model="qwen:72b", temperature=0)

# Post-processing
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Chain
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# 执行查询
rag_chain.invoke("Ollama 支持哪些模型？")

# 定义评估设置（评估器，评估用的 LLM 等）
eval_config = smith.RunEvalConfig(
    evaluators=[
        "cot_qa"
    ],
    custom_evaluators=[],
    eval_llm=Ollama(model="qwen:72b", temperature=0)
)

client = langsmith.Client()
chain_results = client.run_on_dataset(
    dataset_name="Self-RAG-Ollama-20QA",
    llm_or_chain_factory=rag_chain,
    evaluation=eval_config,
    project_name="test-crazy-rag-qw72b-qw72b",
    concurrency_level=5,
    verbose=True,
)

RAG 评估指南：解析评估指标与代码示例

RAG 评估指南：解析评估指标与代码示例

一、RAG 痛点介绍

二、RAG 痛点优化策略

1. 数据处理

2. Chunk Size 设置

更多推荐文章

相关免费在线工具

3. Embedding 模型选择

4. Prompt 设计

5. 检索 TopN 设置

6. LLM 模型选择

7. RAG 检索生成效果优化策略

三、为什么需要对 RAG 系统评估

检索评估

精确度 (Precision)

召回率 (Recall)

精确度和召回率的平衡

平均倒数排名 (MRR)

平均准确率 (MAP)

响应评估

忠实度（基于检索）

答案相关性

四、使用 LangSmith 进行评估

1. 在 LangChain 代码中加入使用 LangSmith

2. 准备测试数据

3. 使用 LangSmith 进行评估

4. 完整代码示例

五、总结

更多推荐文章

相关免费在线工具

RAG 评估指南：解析评估指标与代码示例

RAG 评估指南：解析评估指标与代码示例

一、RAG 痛点介绍

二、RAG 痛点优化策略

1. 数据处理

2. Chunk Size 设置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Embedding 模型选择

4. Prompt 设计

5. 检索 TopN 设置

6. LLM 模型选择

7. RAG 检索生成效果优化策略

三、为什么需要对 RAG 系统评估

检索评估

精确度 (Precision)

召回率 (Recall)

精确度和召回率的平衡

平均倒数排名 (MRR)

平均准确率 (MAP)

响应评估

忠实度（基于检索）

答案相关性

四、使用 LangSmith 进行评估

1. 在 LangChain 代码中加入使用 LangSmith

2. 准备测试数据

3. 使用 LangSmith 进行评估

4. 完整代码示例

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具