RAGChecker：亚马逊开源的 RAG 系统细粒度评估框架

尽管检索增强生成（RAG）模型在很多场景下表现不错，但回答不准依然是个头疼的问题。怎么诊断到底是检索没找对文档，还是生成模型在编造？亚马逊最近开源了一个工具 RAGChecker，专门用来把 RAG 系统的表现拆开来检查，帮 CTO 和开发者快速定位问题。

目前市面上已经有不少 RAG 评估框架，比如 TruLens、RAGAS、ARES 等，它们大多围绕'答案相关性''忠实度'这类端到端指标。但要么依赖人工评估，成本高又难扩展，要么只在简单短答案上靠谱，碰上需要生成长回答的复杂场景就抓瞎了。下面这张表总结了一些代表性工作：

RAGChecker 指标示意图

RAGChecker 的做法不太一样：它在声明（Claim）级别做细粒度比对。具体来说，先把模型回答和标准答案拆成一条条原子化的声明，再逐条检查这些声明是否被检索到的上下文支持。这样就能算出检索器和生成器各自的毛病。

RAGChecker 指标示意图

它输出一套诊断指标：

整体看：精度（回答里正确的声明比例）、召回率（标准答案里被正确覆盖的声明比例）、F1。
针对检索器：声明召回率（标准答案中的声明在检索块里出现的比例）和上下文精度（检索块里含有标准答案声明的比例）。
针生成器：忠实度（生成声明与上下文一致的比例）、（在相关块里生成错误声明的比例）、（在无关块里犯错的比例）、（完全不在任何检索块里的声明）、（靠模型自己知识答对的比例）、（生成器实际用到的标准答案声明占检索块中所有相关声明的比例）。