大模型后处理校准方法:RARR、CRITIC 与 PURR 解析
大语言模型回答的后处理校准方法,重点对比了 RARR、CRITIC 和 PURR 三种方案。RARR 采用研究后修订框架,通过检索事实证据并校验修改回答;CRITIC 利用交互式工具进行验证与修正;PURR 则通过数据蒸馏将大模型能力迁移至小模型,优化效率。这些方法旨在平衡模型回答的保留率与事实准确性,减少幻觉问题。文章详细阐述了各方案的生成、研究、修订及评估流程,并提供了实施建议与对比分析,为实际工程落地提供参考。

大语言模型回答的后处理校准方法,重点对比了 RARR、CRITIC 和 PURR 三种方案。RARR 采用研究后修订框架,通过检索事实证据并校验修改回答;CRITIC 利用交互式工具进行验证与修正;PURR 则通过数据蒸馏将大模型能力迁移至小模型,优化效率。这些方法旨在平衡模型回答的保留率与事实准确性,减少幻觉问题。文章详细阐述了各方案的生成、研究、修订及评估流程,并提供了实施建议与对比分析,为实际工程落地提供参考。

与大语言模型的检测(Detection)不同,校准(Calibration)将重心放在模型回答的后处理上。其核心思想是先不做判断直接使用模型生成回答,再调用工具对回答进行校验和修改。这种策略旨在通过外部知识或自我反思机制,减少模型幻觉(Hallucination),提高回答的事实准确性。
目前谷歌和微软等机构提出了多种方案,尽管具体实现细节和调用工具存在差异,但整体流程通常遵循:模型生成 -> 召回相关知识 -> 对生成结果进行校验和修复。
基础方案由 RARR 论文提出,采用 Research-then-revise(研究后修订)框架。整个流程分为三个阶段:
首先让 LLM 直接生成问题回答 X。此阶段不进行任何约束,允许模型自由发挥,以保留原始意图。
用于收集可以校验回答的事实性证据。针对生成的回答 X,使用 Few-shot Prompt 生成多个用于校验的搜索问题。每个问题分别进行网络搜索并召回 Top5 内容。
值得注意的是,该方案未直接使用搜索自带的 snippet,而是对网页内容进行分块(每 4 个句子一块),并使用 T5-Encoder 计算每个 chunk 和 query 的相似度,保留 Top-J 个内容块。最终得到一个 (Q1, chunk1), (Q1, chunk2), (Q2, chunk1)... 的(问题,事实)列表。
获取所有检索到的事实之后,进入校验阶段。论文遍历上述列表,针对每一个问题,先使用 Few-shot CoT 判断每个事实和模型回答 X 之间是否一致(Agreement Model)。
在修改回答时,系统会先定位原始回答 X 中哪个 Span 和事实不符再进行修改,从而避免大幅修改原始回答导致语义偏离。
后处理方案需要兼顾对模型原始回答的保留和事实性,RARR 提出了两个关键指标:
局限性:RARR 最大的问题在于效率。一方面是大模型的推理效率,另一方面是最后的 Revise 部分采用了串行修改,耗时较长。
另一篇论文 CRITIC 提出的 Verify-then-correct(验证后修正)和 RARR 非常相似,主要区别在于工具调用的灵活性。它在不同的任务上尝试使用了不同的外部工具进行校验:
虽然未涉及动态的工具选择逻辑,只是在不同数据集上固定选用不同的工具,但其核心思路是通过交互式工具增强模型的自我纠错能力。
为了克服 RARR 的效率瓶颈,后续研究转向了微调方案,将大模型的能力蒸馏到小模型中。
PURR 针对 RARR 的效率问题进行了优化,核心思路是将最耗时的 Revise 部分使用 T5-large 模型来实现,Query 生成的部分也用 T5-large 来实现,并将串行修改的方案优化为所有事实进行一次性融合修改。
论文的核心在于如何使用大模型来构建用于事实性修改的 T5 模型。它采用了 Corruption(破坏)方案,即把正确的回答人为进行破坏构造幻觉,再训练模型进行还原。
值得注意的是,这里多个事实并非采用拼接的形式进行融合,而是使用 Fusion-in-decoder (FiD) 的形式在 Encoder 层编码后进行拼接,再进入 Decoder。这种结构能更好地处理多源信息。
PURR 对比 RARR,对模型原始回答有更高的保有率(Preservation),以及更高的平均归因率(Attribution),同时显著提升了推理速度。
该方案强调利用外部知识和自动化反馈来改进大模型。它通过引入外部知识库,让模型在生成过程中不断交叉验证事实,并在发现矛盾时重新生成。这种方法结合了检索增强生成(RAG)的思想,进一步增强了模型的可信度。
Fusion-in-decoder 是一种利用段落检索与生成模型结合的技术。它允许模型在解码阶段并行地访问多个检索到的段落,而不是像传统 RAG 那样按顺序处理。这种架构在处理复杂的多跳问答任务时表现尤为出色,能够更有效地整合分散的信息。
| 方案 | 核心机制 | 优点 | 缺点 |
|---|---|---|---|
| RARR | Research-then-revise | 事实性强,保留率高 | 串行修改效率低,成本高 |
| CRITIC | Verify-then-correct | 工具交互灵活,适应多任务 | 依赖特定工具,动态选择难 |
| PURR | Denoising Distillation | 效率高,可部署于小模型 | 依赖高质量蒸馏数据 |
在实际工程落地中,选择校准方案需考虑以下因素:
大模型的后处理校准是解决幻觉问题的关键路径之一。从 RARR 的端到端检索修订,到 PURR 的高效蒸馏优化,技术演进正朝着更快速、更准确的方向发展。未来,结合动态工具选择与自适应反馈机制的混合校准方案,有望成为行业标准。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online