RAG 评估指南：核心指标解析与代码实现 | 极客日志

PythonAI算法

RAG 评估指南：核心指标解析与代码实现

综述由AI生成RAG 系统的评估方法。首先分析了 RAG 在数据处理、分块、Embedding 模型选择、Prompt 设计及检索策略等方面的痛点与优化方案。接着深入讲解了 TRIAD 评估框架，涵盖上下文相关性、忠实度及答案相关性三大维度，并详细阐述了精确度、召回率、MRR、MAP 等检索指标的计算方法与适用场景。最后，通过 LangSmith 平台提供了完整的评估实施步骤与 Python 代码示例，展示了如何构建测试数据集、配置评估器及运行自动化评估，帮助开发者科学地衡量和改进 RAG 系统性能。

ArchDesign发布于 2025/2/7更新于 2026/6/220 浏览

RAG 评估指南：核心指标解析与代码实现

一、RAG 痛点介绍

Retrieval-Augmented Generation（RAG，检索增强生成）结合了信息检索与大语言模型的优势，但在实际落地中常面临诸多挑战。主要痛点包括检索内容不相关、生成内容幻觉、上下文窗口限制以及评估体系缺失等。

为了优化 RAG 系统，我们需要深入理解其工作流程中的关键环节，并建立科学的评估机制。

二、RAG 痛点优化策略

针对 RAG 系统的常见痛点，以下是经过实践验证的最佳实践总结及关键优化点：

1. 数据如何处理？

数据质量直接决定 RAG 的上限。在使用数据之前，必须确保数据是干净和结构化的。

清洗和预处理：去除噪音、处理缺失值、标准化格式。例如，统一编码、去除特殊符号。
分段和标注：将长文档分成较小的段落（chunks），并为每个段落添加相关标签或元数据，以便更好地进行检索和生成。

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗
data.dropna(inplace=True)    # 去除缺失值
data['text'] = data['text'].str.lower()  # 转换为小写
data['text'] = data['text'].str.replace(r'\d+', '', regex=True)  # 去除数字

# 数据分段和标注
def chunk_text(text, chunk_size=200):
    words = text.split()    
    chunks = [' '.join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size)]    
    return chunks

data['chunks'] = data['text'].apply(chunk_text)

2. Chunk Size 如何设置？

Chunk size 的设置需要平衡信息量和检索效率。

较短的 Chunk：提高检索准确性，减少噪声干扰，但可能丢失上下文信息。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 设置 chunk 大小
chunk_size = 150  # 例如设置为 150 个词

# 分段函数
def chunk_text(text, chunk_size):
    words = text.split()    
    chunks = [' '.join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size)]    
    return chunks
    
data['chunks'] = data['text'].apply(lambda x: chunk_text(x, chunk_size))

from transformers import BertTokenizer, BertModel
import torch

# 加载预训练模型和 tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 微调模型逻辑示例
# 假设我们有一个自定义数据集 custom_dataset
# for batch in custom_dataset:
#     inputs = tokenizer(batch['text'], return_tensors='pt', padding=True, truncation=True)
#     outputs = model(**inputs)
#     # 在这里添加微调逻辑

# 对数据进行 embedding
inputs = tokenizer(data['chunks'].sum(), return_tensors='pt', padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
embeddings = outputs.last_hidden_state.mean(dim=1)

def calculate_precision(retrieved_docs, relevant_docs):
    """
    计算精确度
    
    参数:
    retrieved_docs (list): 检索到的文档列表
    relevant_docs (list): 相关文档列表
    
    返回:
    float: 精确度
    """
    # 计算检索到的相关文档数量
    relevant_retrieved_docs = [doc for doc in retrieved_docs if doc in relevant_docs]  
      
    # 计算精确度
    precision = len(relevant_retrieved_docs) / len(retrieved_docs) if retrieved_docs else 0    
    return precision

# 示例数据
retrieved_docs = ['doc1', 'doc2', 'doc3', 'doc4', 'doc5']
relevant_docs = ['doc2', 'doc4', 'doc6']

# 计算精确度
precision = calculate_precision(retrieved_docs, relevant_docs)
print(f"精确度：{precision:.2f}")

def calculate_recall(retrieved_docs, relevant_docs):    
    """
    计算召回率
    
    参数:
    retrieved_docs (list): 检索到的文档列表
    relevant_docs (list): 相关文档列表
    
    返回:
    float: 召回率
    """
    # 计算检索到的相关文档数量
    relevant_retrieved_docs = [doc for doc in retrieved_docs if doc in relevant_docs]    
    
    # 计算召回率
    recall = len(relevant_retrieved_docs) / len(relevant_docs) if relevant_docs else 0    
    return recall

# 示例数据
retrieved_docs = ['doc1', 'doc2', 'doc3', 'doc4', 'doc5']
relevant_docs = ['doc2', 'doc4', 'doc6', 'doc7']

# 计算召回率
recall = calculate_recall(retrieved_docs, relevant_docs)
print(f"召回率：{recall:.2f}")

import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_API_KEY"] = "your-api-key-here"

from langsmith import Client
import uuid

# 问题与答案
examples = [
    (
        "What is LangChain?",
        "LangChain is an open-source framework for building applications using large language models.",
    ),
    (
        "Can I trace my Llama V2 llm?",
        "So long as you are using one of LangChain's LLM implementations, all your calls can be traced",
    ),
]

client = Client()
dataset_name = f"Retrieval QA Questions {str(uuid.uuid4())}"
dataset = client.create_dataset(dataset_name=dataset_name)
for q, a in examples: 
    client.create_example(
        inputs={"question": q}, outputs={"answer": a}, dataset_id=dataset.id   
    )

import langsmith
from langchain import chat_models, prompts, smith
from langchain.schema import output_parser
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.prompts import ChatPromptTemplate

# 加载文档
loader = WebBaseLoader("./sample.html")
docs = loader.load()

# 文本分割
text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)
splits = text_splitter.split_documents(docs)
vectorstore = Chroma.from_documents(documents=splits, embedding=OllamaEmbeddings(model="mofanke/acge_text_embedding"))
retriever = vectorstore.as_retriever()

# 构建 Prompt
template = """你是一个回答问题的助手。请使用以下检索到的背景信息来回答问题。如果你不知道答案，直接说你不知道。请用最多三句话来保持回答的简洁性。
问题：{question} 

背景：{context} 

答案：
"""

prompt = ChatPromptTemplate.from_template(template)

# 初始化 LLM
llm = Ollama(model="qwen:72b", temperature=0)

# Post-processing
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Chain 构建
rag_chain = ( 
    {"context": retriever | format_docs, "question": RunnablePassthrough()}    
    | prompt    
    | llm    
    | StrOutputParser()
)

# 执行查询
result = rag_chain.invoke("Ollama 支持哪些模型？")
print(result)

# 定义评估设置（评估器，评估用的 LLM 等）
eval_config = smith.RunEvalConfig(  
    evaluators=[        
        "cot_qa"    
    ],    
    custom_evaluators=[],    
    eval_llm=Ollama(model="qwen:72b", temperature=0)
)

client = langsmith.Client()
chain_results = client.run_on_dataset(
    dataset_name="Self-RAG-Ollama-20QA",    
    llm_or_chain_factory=rag_chain,    
    evaluation=eval_config,    
    project_name="test-crazy-rag-qw72b",    
    concurrency_level=5,    
    verbose=True,
)

RAG 评估指南：核心指标解析与代码实现

RAG 评估指南：核心指标解析与代码实现

一、RAG 痛点介绍

二、RAG 痛点优化策略

1. 数据如何处理？

2. Chunk Size 如何设置？

更多推荐文章

相关免费在线工具

3. Embedding 模型使用什么？

4. Prompt 如何设计？

5. 检索的 TopN 如何设置？

6. LLM 模型选择的什么？

7. RAG 检索生成效果优化策略

三、为什么需要对 RAG 系统评估？

1. 评估类型

2. 检索评估指标详解

精确度 (Precision)

召回率 (Recall)

精确度和召回率的平衡

平均倒数排名 (MRR)

平均准确率 (MAP)

3. 响应评估指标详解

忠实度 (Faithfulness)

答案相关性 (Answer Relevance)

四、使用 LangSmith 进行评估

1. 在 LangChain 代码中加入使用 LangSmith

2. 准备测试数据

第一种方法：CSV 文件导入

第二种方法：代码创建

第三种方法：使用 LangSmith 辅助创建

3. 使用 LangSmith 进行评估

4. 完整代码示例

五、总结

更多推荐文章

相关免费在线工具

RAG 评估指南：核心指标解析与代码实现

RAG 评估指南：核心指标解析与代码实现

一、RAG 痛点介绍

二、RAG 痛点优化策略

1. 数据如何处理？

2. Chunk Size 如何设置？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Embedding 模型使用什么？

4. Prompt 如何设计？

5. 检索的 TopN 如何设置？

6. LLM 模型选择的什么？

7. RAG 检索生成效果优化策略

三、为什么需要对 RAG 系统评估？

1. 评估类型

2. 检索评估指标详解

精确度 (Precision)

召回率 (Recall)

精确度和召回率的平衡

平均倒数排名 (MRR)

平均准确率 (MAP)

3. 响应评估指标详解

忠实度 (Faithfulness)

答案相关性 (Answer Relevance)

四、使用 LangSmith 进行评估

1. 在 LangChain 代码中加入使用 LangSmith

2. 准备测试数据

第一种方法：CSV 文件导入

第二种方法：代码创建

第三种方法：使用 LangSmith 辅助创建

3. 使用 LangSmith 进行评估

4. 完整代码示例

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具