论文总结
核心目标
解决现有多模态大语言模型的幻觉问题,突破传统 RLHF 依赖人工标注、现有 RLAIF 依赖专有模型的局限,通过全开源范式构建高质量反馈,实现模型可信度与人类偏好的对齐。
核心创新
- 去混淆响应生成:相同条件下多轮采样解码,消除文本风格干扰,凸显可信度真实差异;
- 分而治之反馈标注:将响应拆解为原子声明,转换为极性问题评估,降低开源模型标注难度;
- 迭代反馈学习:动态更新反馈分布,解决 DPO 训练中的分布偏移问题;
- 推理自反馈机制:利用 DPO 对齐模型的奖励分数,结合长度归一化策略,优化推理阶段性能。
关键结果
- 幻觉抑制显著:RLAIF-V 7B 将物体幻觉率降低 80.7%,RLAIF-V 12B 整体幻觉率超越 GPT-4V;
- 性能保持均衡:提升可信度的同时不牺牲有用性,MMStar 基准分数较基准模型显著提升;
- 开源生态友好:支持自对齐(单模型同时作为基准和标注模型),反馈数据可泛化到多种开源模型;
- 推理优化有效:自反馈 BoN 策略进一步降低幻觉率,长度归一化解决短响应偏好问题。
Best of N 策略说明
在论文 RLAIF-V 中,Best of N(简称 BoN) 是一种用于提升多模态大语言模型(MLLMs)推理阶段可信度的核心策略,其核心逻辑是'从多个候选响应中选择最优结果',结合模型自反馈机制进一步降低幻觉、提升输出质量。
一、核心定义
Best of N(BoN):在模型推理时,对同一个输入(图像 + 提示词)生成 N 个不同的候选响应,通过预设的评分标准(如 RLAIF-V 的自反馈奖励分数)筛选出分数最高的 1 个响应作为最终输出,本质是'多候选择优'的推理优化策略。
二、设计原理
- 解决的核心问题:单轮推理的随机性可能导致模型输出存在幻觉或信息偏差,而多轮采样能覆盖更丰富的输出空间;同时,DPO 对齐后的模型自带'奖励评估能力',可通过自反馈区分候选响应的可信度差异。
- 与自反馈的结合逻辑:
- RLAIF-V 的核心创新是将 DPO 对齐后的模型同时作为'生成器'和'评估器':生成器负责产生 N 个候选响应,评估器通过自反馈奖励函数对每个响应打分;
- 奖励函数已通过'长度归一化'修正了 DPO 固有的'短响应偏好',确保评分公平性(避免因响应长度而非内容质量导致的误选)。
三、具体实现细节
1. 候选响应生成
- 采样方式:采用核采样(nucleus sampling, top-p) 而非贪心搜索,目的是在保证输出多样性的同时避免无意义的随机文本;
- 采样数量(N 的选择):论文根据模型规模调整 N 以控制计算成本:
- RLAIF-V 7B(小参数量模型):采样 32 个候选响应;
- RLAIF-V 12B(大参数量模型):采样 16 个候选响应;
2. 评分与筛选
- 评分依据:使用 RLAIF-V 的自反馈奖励分数,公式为: $$r(y) = \frac{\beta}{T} \log \frac{\pi_{\theta}(y)}{\pi_{ref}(y)}$$ 其中:
- $r(y)$ 为响应 y 的最终奖励分数;
- $\beta$ 为控制与基准策略偏离程度的参数;
- $T$ 为响应长度(长度归一化项,修正短响应偏好);
- $\pi_{\theta}(y)$ 为 DPO 对齐后模型的输出概率;
- $\pi_{ref}(y)$ 为基准模型的输出概率。
- 筛选规则:直接选择奖励分数最高的候选响应作为最终输出,无需额外人工干预。
四、实验效果
BoN 策略显著提升了模型的可信度和有用性,具体表现为:
- 幻觉率进一步降低:
- RLAIF-V 7B + BoN:Object HalBench 响应级幻觉率从 10.5% 降至 6.8(相对降低 35.2%);


