亚马逊开源 RAGChecker：诊断与提升 RAG 模型准确性工具 | 极客日志

PythonAI算法

亚马逊开源 RAGChecker：诊断与提升 RAG 模型准确性工具

综述由AI生成亚马逊开源的 RAGChecker 是一款专用于诊断和提升检索增强生成（RAG）模型准确性的工具。针对现有评估框架依赖人工或简单文本匹配的局限，RAGChecker 采用基于声明（Claim）级别的细粒度评估方法。它通过提取响应和真实答案中的声明，计算精度、召回率、忠实度、幻觉等指标，分别评估检索器和生成器的性能。实验表明，RAGChecker 在正确性、完整性和整体评估上与人类偏好具有最强相关性，优于 TruLens 和 RAGAS 等现有框架。该工具揭示了检索质量对整体性能的关键影响，以及开源模型在区分噪声方面的不足，为 RAG 系统的优化提供了可操作的指导。

ApiHolic发布于 2025/2/7更新于 2026/6/224 浏览

亚马逊开源 RAGChecker：诊断与提升 RAG 模型准确性工具

尽管检索增强生成（RAG）模型在许多应用中表现出色，但它们在实际使用中也可能面临回答不准确的问题。如何有效地诊断和解决这些问题显得尤为重要。亚马逊发布了一个全新的开源工具——RAGChecker，旨在帮助开发者和研究人员对 RAG 系统进行全面、可靠、细粒度诊断，着重解决 AI 回答不准的问题，并为进一步提升性能提供可操作的方向。

了解现有 RAG 系统评估框架

在引入 RAGChecker 之前，我们需要了解现有的 RAG 系统评估框架及其局限性。

RAG 评估方向	评估框架及链接	描述
生成器基本能力评估	RGB	手动构建测试集，评估生成器的噪声鲁棒性、负拒绝、信息整合和反事实鲁棒性
生成器基本能力评估	RECALL	引入手动编辑的反事实上下文到 QA 和文本生成数据集，评估 LLMs 的反事实鲁棒性
生成器基本能力评估	NoMIRACL	通过人工判断相关和非相关数据集，评估 LLMs 对检索错误的鲁棒性
生成器基本能力评估	2024.10198	通过引入不同水平的扰动来量化 LLMs 的忠实度与内部先验间的平衡
生成器基本能力评估	FAAF	提出细粒度的事实验证方法，用于评估生成器的真实性
RAG 系统端到端评估	TruLens	引入 RAG 三元组概念，评估上下文相关性、基础性和答案相关性
RAG 系统端到端评估	RAGAS / ARES	跟随 RAG 三元组概念，在不同数据集上优化分数预测方法
RAG 系统端到端评估	CRUD-RAG	涉及 CRUD 操作，开发特定的 RAG 系统数据集和评估标准
其他端到端评估	EMNLP 2023	进行人类评估，考察生成搜索引擎的流畅性、感知效用和可验证性
其他端到端评估	MEDRAG	构建医学 RAG 基准，用 QA 准确性评估医学 RAG 系统
其他端到端评估	MultiHop-RAG	从新闻文章生成多跳查询，评估 RAG 系统的 QA 准确性
其他端到端评估	CDQA	提出一种生成动态 QA 问题的新方法，要求使用最新信息回答

RAGChecker 指标示意图

然而，上述评估框架中使用的评估指标要么依赖于人类评估，成本高昂且难以扩展；要么依赖于简单的文本准确性，这使得它们无法应对需要长答案评估的复杂 RAG 场景。因此，我们需要一种更先进的自动评估框架：RAGChecker。

RAGChecker 框架核心内容

RAGChecker 是一种先进的自动评估框架，它提供了一套全面的指标和工具，用于深入分析 RAG 性能。其核心在于基于声明（Claim）级别的细粒度评估，而非传统的响应级别评估。

基于声明的细粒度评估

RAGChecker 基于 (claim-level entailment) 声明级别的细粒度评估。从响应和真实答案中提取声明并与其他文本进行对比，这种方法能够对系统性能进行更加详细和微妙的分析，提供深入的洞察。

亚马逊开源 RAGChecker：诊断与提升 RAG 模型准确性工具

亚马逊开源 RAGChecker：诊断与提升 RAG 模型准确性工具

了解现有 RAG 系统评估框架

RAGChecker 框架核心内容

基于声明的细粒度评估

更多推荐文章

相关免费在线工具

整体指标

检索器指标

生成器指标

实验设计

数据集准备

基线 RAG 系统

元评估

结果分析

元评估结果

主要结果

总结

优点

问答环境回顾

问题 1：RAGChecker 框架中的 claim-level 事实检查是如何实现的？

问题 2：RAGChecker 框架在元评估中表现如何，与其他评估框架相比有何优势？

更多推荐文章

相关免费在线工具

亚马逊开源 RAGChecker：诊断与提升 RAG 模型准确性工具

亚马逊开源 RAGChecker：诊断与提升 RAG 模型准确性工具

了解现有 RAG 系统评估框架

RAGChecker 框架核心内容

基于声明的细粒度评估

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

整体指标

检索器指标

生成器指标

实验设计

数据集准备

基线 RAG 系统

元评估

结果分析

元评估结果

主要结果

总结

优点

问答环境回顾

问题 1：RAGChecker 框架中的 claim-level 事实检查是如何实现的？

问题 2：RAGChecker 框架在元评估中表现如何，与其他评估框架相比有何优势？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具