RAG 系统效果评估指南：核心指标与 LangChain4j 实践 | 极客日志

JavaAIjava算法

RAG 系统效果评估指南：核心指标与 LangChain4j 实践

介绍检索增强生成（RAG）系统的评估方法，涵盖检索质量与生成质量的分阶段评估架构。详细解析了上下文精度、召回率、忠实度等核心指标，并提供了基于 LangChain4j 和 RAGAS 框架的实践代码。内容包括有参考与无参考评估策略、LLM-as-a-Judge 应用以及 CI/CD 流水线集成建议，旨在帮助开发者量化优化 RAG 系统性能。

黑客发布于 2026/3/29更新于 2026/7/2356 浏览

RAG 系统评估完整指南：指标、架构与 LangChain4j 实践

评估一个检索增强生成（RAG）系统的效果，是将其从原型推向生产环境前最关键的一步。由于 RAG 系统由检索与生成两个关键阶段串联而成，其评估体系也相应地需要分阶段、多维度地进行。本文将系统性地介绍 RAG 评估的核心架构、常用指标，以及在 LangChain4j 生态中的具体实践方法。

一、RAG 评估的核心架构

一个完整的 RAG 评估架构由两条评估主线构成：检索质量评估和生成质量评估。两者相辅相成，最终形成对系统整体效能的判断。

RAG 评估架构图

1.1 分阶段评估的必要性

RAG 系统的两个阶段相互依赖但目标不同：

检索阶段的目标是'找得对、找得全'——从知识库中召回与查询相关的文档片段
生成阶段的目标是'答得好、答得准'——基于召回的片段生成忠实、相关的答案

如果仅看最终答案的质量，无法定位问题根源：是检索没找到相关信息，还是大模型没有正确使用找到的信息？因此，必须分阶段评估。

1.2 有参考评估 vs 无参考评估

有参考评估：需要标准答案（Ground Truth），通过对比生成答案与标准答案来计算指标（如 BLEU、ROUGE）。优点是客观可量化，缺点是构建标准答案成本高。
无参考评估：无需标准答案，利用大模型自身（LLM-as-a-Judge）或专用框架（如 RAGAS）对答案质量进行评分。优点是自动化程度高，与人类判断一致性较好。

二、核心评估指标详解

RAG 评估的指标体系可以归纳为以下三大类：

2.1 检索阶段指标

指标	定义	计算方法	理想范围
上下文精度 Context Precision	检索到的文档片段中，与问题真正相关的比例。	相关片段数 / 检索到的总片段数	> 0.8
上下文召回率 Context Recall	标准答案中出现的所有关键信息，有多少被检索到的文档片段覆盖。	将标准答案拆分为多个 claims，计算可从上下文中推断出的比例	> 0.8
Precision@K	检索结果的前 K 个条目中，相关条目的比例。	前 K 条中的相关数 / K	视 K 而定
Recall@K	所有相关文档中，有多少出现在前 K 条结果中。	前 K 条中的相关数 / 总相关文档数	视 K 而定
MRR 平均倒数排名	第一个相关结果在检索列表中的排名的倒数，取平均值。	(1/rank₁ + 1/rank₂ + …) / N	越接近 1 越好

计算示例：假设用户查询 Q，知识库中有 5 篇相关文档。检索系统返回前 10 条结果，其中包含 3 篇相关文档。则：

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online

指标	定义	计算方法	理想范围
忠实度 Faithfulness	生成的答案是否严格基于检索到的上下文，有无幻觉（编造事实）。	将答案拆分为多个陈述句，逐一判断每个陈述是否可从上下文中推断出来	> 0.9
答案相关性 Answer Relevancy	生成的答案是否直接且充分地回答了用户的问题。	基于答案反向推测问题，计算推测问题与原问题的语义相似度	> 0.9
上下文利用率 Context Utilization	系统如何有效地利用检索到的上下文来生成响应。	综合评估生成器对上下文的利用程度	越高越好
BLEU	生成答案与参考答案的 n-gram 重叠度。	计算精确度修正因子	视任务而定
ROUGE	生成答案与参考答案的召回率导向的重叠度。	计算 n-gram 召回率	视任务而定
BERTScore	利用 BERT 嵌入计算生成答案与参考答案的语义相似度。	计算两个句子的嵌入向量的余弦相似度	越高越好

// LLM-as-a-Judge 的提示词示例
String judgePrompt = """
  请评估以下答案的忠实度和相关性，分别给出 1-5 分。
  用户查询：{query}
  检索到的上下文：{context}
  生成的答案：{answer}
  忠实度评分标准：
  5 分：答案完全基于上下文，无任何幻觉
  4 分：答案基本基于上下文，有少量推断 ...
  相关性评分标准：
  5 分：答案直接、充分地回答用户问题
  4 分：答案相关但不够充分 ...
  请以 JSON 格式返回：{"faithfulness": 分数，"relevance": 分数}
""";

RAGAS 得分 = 加权平均 (忠实度，答案相关性，上下文精度，上下文召回率，...)

类型	特点	评估重点
Easy RAG	最简单的方式，自动处理嵌入、分割、存储	端到端答案质量
Naive RAG	基础向量检索 + 生成，可自定义检索器	检索质量 + 生成质量
Advanced RAG	模块化框架，支持查询转换、多源检索、重排序	各模块分别评估

data_samples = {
    'question': ['第一届超级碗是什么时候举行的？', '谁赢得了最多的超级碗冠军？'],
    'answer': ['第一届超级碗于 1967 年 1 月 15 日举行', '赢得最多超级碗冠军的是新英格兰爱国者队'],
    'contexts': [
        ['第一届 AFL-NFL 世界冠军赛于 1967 年 1 月 15 日在洛杉矶纪念体育馆举行'],
        ['绿湾包装工队...', '新英格兰爱国者队赢得了创纪录的六次超级碗冠军...']
    ],
    'ground_truth': [
        '第一届超级碗于 1967 年 1 月 15 日举行',
        '新英格兰爱国者队赢得了六次超级碗冠军'
    ]
}

// 构建 RAG 应用
RetrievalAugmentor augmentor = DefaultRetrievalAugmentor.builder()
    .contentRetriever(myRetriever)
    .build();
AiService aiService = AiServices.builder(Assistant.class)
    .chatLanguageModel(chatModel)
    .retrievalAugmentor(augmentor)
    .build();

// 准备评估数据集
List<EvaluationSample> samples = new ArrayList<>();
for (String question : testQuestions) {
    // 执行查询
    String answer = aiService.chat(question);
    // 获取检索到的上下文（需要自定义 ContentRetriever 来记录）
    List<String> contexts = myRetriever.getLastRetrievedContents();
    // 构建评估样本
    samples.add(EvaluationSample.builder()
        .question(question)
        .answer(answer)
        .contexts(contexts)
        .groundTruth(groundTruths.get(question)) // 可选
        .build());
}
// 导出为 JSON，供 RAGAS 使用
exportToJson(samples, "rag_eval_data.json");

from ragas import evaluate
from datasets import Dataset

# 加载评估数据
dataset = Dataset.from_json("rag_eval_data.json")

# 计算各项指标
result = evaluate(
    dataset,
    metrics=[
        faithfulness,
        answer_relevancy,
        context_precision,
        context_recall
    ]
)
print(result)
# 输出示例：
# {'faithfulness': 0.95, 'answer_relevancy': 0.92, 
#  'context_precision': 0.88, 'context_recall': 0.85}

@QuarkusTest
public class RagEvaluationTest {
    @AiScorer(prompt = "请评估以下答案的忠实度和相关性，分别给出 1-5 分", model = "gpt-4")
    Scorer scorer;

    @Test
    void testRagResponses() {
        // 准备测试样本
        Samples<String> samples = new Samples<>(
            EvaluationSample.<String>builder().withName("医疗查询").withParameter("我摔断了腿该怎么办？").build(),
            EvaluationSample.<String>builder().withName("法律查询").withParameter("我因逃税被起诉").build()
        );

        // 执行评估
        EvaluationReport report = scorer.evaluate(
            samples,
            param -> ragAssistant.chat(param), // 执行 RAG 查询的函数
            null // 评分函数（可选，如果不提供则使用 AI 评分）
        );

        // 断言
        assertThat(report.score()).isGreaterThan(4.0);
    }
}

public class LightweightRagEvaluator {
    private final EmbeddingModel embeddingModel;

    public double evaluateRetrievalQuality(String query, List<String> retrievedDocs) {
        // 计算查询与检索文档的平均相似度
        Embedding queryEmbedding = embeddingModel.embed(query).content();
        double avgSimilarity = retrievedDocs.stream()
            .map(doc -> embeddingModel.embed(doc).content())
            .mapToDouble(docEmbedding -> cosineSimilarity(queryEmbedding, docEmbedding))
            .average()
            .orElse(0.0);
        return avgSimilarity;
    }

    public double evaluateAnswerRelevance(String query, String answer) {
        // 计算答案与查询的语义相似度
        Embedding queryEmbedding = embeddingModel.embed(query).content();
        Embedding answerEmbedding = embeddingModel.embed(answer).content();
        return cosineSimilarity(queryEmbedding, answerEmbedding);
    }

    private double cosineSimilarity(Embedding e1, Embedding e2) {
        // 计算余弦相似度
        return Math.sqrt(e1.dotProduct(e2) / (e1.magnitude() * e2.magnitude()));
    }
}

# .github/workflows/rag-evaluation.yml
name: RAG Evaluation
on:
  pull_request:
    paths:
      - 'src/main/**'
jobs:
  evaluate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3
      - name: Setup Java
        uses: actions/setup-java@v3
        with:
          java-version: '17'
      - name: Run RAG evaluation tests
        run: mvn test -Dtest=RagEvaluationTest
      - name: Upload evaluation report
        uses: actions/upload-artifact@v3
        with:
          name: rag-evaluation-report
          path: target/rag-evaluation-report.json

问题现象	可能原因	检查指标
答案与问题不相关	检索质量差	上下文精度、Precision@K
答案缺少关键信息	检索召回不足	上下文召回率、Recall@K
答案有幻觉	生成器不忠实	忠实度
答案答非所问	生成器不相关	答案相关性
检索结果很多但答案质量差	上下文利用率低	上下文利用率

RAG 系统效果评估指南：核心指标与 LangChain4j 实践

RAG 系统评估完整指南：指标、架构与 LangChain4j 实践

一、RAG 评估的核心架构

1.1 分阶段评估的必要性

1.2 有参考评估 vs 无参考评估

二、核心评估指标详解

2.1 检索阶段指标

更多推荐文章

相关免费在线工具

2.2 生成阶段指标

2.3 无参考评估指标

三、LangChain4j 生态中的评估实践

3.1 RAG 的三种实现层次

3.2 与 RAGAS 集成

3.3 使用 Quarkus 的 `@AiScorer` 进行 LLM-as-a-Judge

3.4 自定义轻量级评估

3.5 评估工作流集成

四、总结与最佳实践

4.1 RAG 评估的黄金法则

4.2 常见问题定位指南

4.3 生产环境评估建议

更多推荐文章

相关免费在线工具

RAG 系统效果评估指南：核心指标与 LangChain4j 实践

RAG 系统评估完整指南：指标、架构与 LangChain4j 实践

一、RAG 评估的核心架构

1.1 分阶段评估的必要性

1.2 有参考评估 vs 无参考评估

二、核心评估指标详解

2.1 检索阶段指标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 生成阶段指标

2.3 无参考评估指标

三、LangChain4j 生态中的评估实践

3.1 RAG 的三种实现层次

3.2 与 RAGAS 集成

3.3 使用 Quarkus 的 @AiScorer 进行 LLM-as-a-Judge

3.4 自定义轻量级评估

3.5 评估工作流集成

四、总结与最佳实践

4.1 RAG 评估的黄金法则

4.2 常见问题定位指南

4.3 生产环境评估建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 使用 Quarkus 的 `@AiScorer` 进行 LLM-as-a-Judge