亚马逊开源 RAGChecker:诊断与提升 RAG 模型准确性工具
尽管检索增强生成(RAG)模型在许多应用中表现出色,但它们在实际使用中也可能面临回答不准确的问题。如何有效地诊断和解决这些问题显得尤为重要。亚马逊发布了一个全新的开源工具——RAGChecker,旨在帮助开发者和研究人员对 RAG 系统进行全面、可靠、细粒度诊断,着重解决 AI 回答不准的问题,并为进一步提升性能提供可操作的方向。
了解现有 RAG 系统评估框架
在引入 RAGChecker 之前,我们需要了解现有的 RAG 系统评估框架及其局限性。
| RAG 评估方向 | 评估框架及链接 | 描述 |
|---|---|---|
| 生成器基本能力评估 | RGB | 手动构建测试集,评估生成器的噪声鲁棒性、负拒绝、信息整合和反事实鲁棒性 |
| 生成器基本能力评估 | RECALL | 引入手动编辑的反事实上下文到 QA 和文本生成数据集,评估 LLMs 的反事实鲁棒性 |
| 生成器基本能力评估 | NoMIRACL | 通过人工判断相关和非相关数据集,评估 LLMs 对检索错误的鲁棒性 |
| 生成器基本能力评估 | 2024.10198 | 通过引入不同水平的扰动来量化 LLMs 的忠实度与内部先验间的平衡 |
| 生成器基本能力评估 | FAAF | 提出细粒度的事实验证方法,用于评估生成器的真实性 |
| RAG 系统端到端评估 | TruLens | 引入 RAG 三元组概念,评估上下文相关性、基础性和答案相关性 |
| RAG 系统端到端评估 | RAGAS / ARES | 跟随 RAG 三元组概念,在不同数据集上优化分数预测方法 |
| RAG 系统端到端评估 | CRUD-RAG | 涉及 CRUD 操作,开发特定的 RAG 系统数据集和评估标准 |
| 其他端到端评估 | EMNLP 2023 | 进行人类评估,考察生成搜索引擎的流畅性、感知效用和可验证性 |
| 其他端到端评估 | MEDRAG | 构建医学 RAG 基准,用 QA 准确性评估医学 RAG 系统 |
| 其他端到端评估 | MultiHop-RAG | 从新闻文章生成多跳查询,评估 RAG 系统的 QA 准确性 |
| 其他端到端评估 | CDQA | 提出一种生成动态 QA 问题的新方法,要求使用最新信息回答 |

然而,上述评估框架中使用的评估指标要么依赖于人类评估,成本高昂且难以扩展;要么依赖于简单的文本准确性,这使得它们无法应对需要长答案评估的复杂 RAG 场景。因此,我们需要一种更先进的自动评估框架:RAGChecker。
RAGChecker 框架核心内容
RAGChecker 是一种先进的自动评估框架,它提供了一套全面的指标和工具,用于深入分析 RAG 性能。其核心在于基于声明(Claim)级别的细粒度评估,而非传统的响应级别评估。
基于声明的细粒度评估
RAGChecker 基于 (claim-level entailment) 声明级别的细粒度评估。从响应和真实答案中提取声明并与其他文本进行对比,这种方法能够对系统性能进行更加详细和微妙的分析,提供深入的洞察。




