RAG 评估指南：从检索到生成的 LLM 性能评估方法

前言

本文从时间线出发对 RAG（检索增强生成）的评估方式进行对比。这些评估方式不仅限于 RAG 流程之中，其中基于大语言模型（LLM）的评估方式更加适用于各行各业。

RAG 常用评估方式

上一节我们讲了如何用 ROUGE 这个方法评估摘要的相似度。由于篇幅限制，没有讲到图片与文本之间的评估。由于涉及图片与文本评估的场景多见于 RAG 流程中，包括检索评估方法和生成评估方法。其中生成评估方法也就是通过对答案进行评估的方法，从而对 LLM 这个模型的生成能力进行间接评估，也适用于我们的图片与上下文之间的评估。

此外本文还会对 RAG 中的其他重要内容的评估方式进行详尽的讲解。

检索评估指标

常用的检索评估方式有以下几种，包括文字和图片的检索评估，评估方式侧重点各不相同，没有好坏之分。

RAG 检索评估示意图

RAG 检索召回率示意图

其中，这里的 k 一般取 10, 5, 3。

生成评估指标

这些指标用于衡量一个系统在处理问答（Q&A）任务时的表现，特别是涉及到大型语言模型（LLM）和视觉增强服务时。下面是对表格中每个指标的解释：

生成评估指标详解

生成质量评估维度

表格的描述强调了这些指标的重要性，它们提供了对系统每个部分有效性的宝贵见解。这些指标有助于分别衡量系统的搜索能力和生成部分，以便理解实验对每个组件的影响。

RAG 常用实验改进流程

我们通过系统地测试不同的方法进行实验，一次调整一个配置设置并评估其对预定义基线的影响。使用下面概述的特定检索和生成指标来评估性能。对这些指标的详细分析有助于我们决定是否使用新配置更新基线或保留现有配置。

实验改进流程图

Q&A 评估数据集

为了在实验过程中进行准确评估，整理一组多样化的问答对至关重要。这些问答对应涵盖一系列文章，涵盖各种数据格式、长度和主题。这种多样性可确保全面的测试和评估，有助于提高结果和所获见解的可靠性。以下是可供参考的问答数据集示例。

问答数据集结构

RAG 评估指南：从检索到生成的 LLM 性能评估方法