RLAIF-V：开源 AI 反馈助力多模态模型可信度超越 GPT-4V

论文总结

核心目标

解决现有多模态大语言模型的幻觉问题，突破传统 RLHF 依赖人工标注、现有 RLAIF 依赖专有模型的局限，通过全开源范式构建高质量反馈，实现模型可信度与人类偏好的对齐。

核心创新

去混淆响应生成：相同条件下多轮采样解码，消除文本风格干扰，凸显可信度真实差异；
分而治之反馈标注：将响应拆解为原子声明，转换为极性问题评估，降低开源模型标注难度；
迭代反馈学习：动态更新反馈分布，解决 DPO 训练中的分布偏移问题；
推理自反馈机制：利用 DPO 对齐模型的奖励分数，结合长度归一化策略，优化推理阶段性能。

关键结果

幻觉抑制显著：RLAIF-V 7B 将物体幻觉率降低 80.7%，RLAIF-V 12B 整体幻觉率超越 GPT-4V；
性能保持均衡：提升可信度的同时不牺牲有用性，MMStar 基准分数较基准模型显著提升；
开源生态友好：支持自对齐（单模型同时作为基准和标注模型），反馈数据可泛化到多种开源模型；
推理优化有效：自反馈 BoN 策略进一步降低幻觉率，长度归一化解决短响应偏好问题。

Best of N 策略说明

在论文 RLAIF-V 中，Best of N（简称 BoN） 是一种用于提升多模态大语言模型（MLLMs）推理阶段可信度的核心策略，其核心逻辑是'从多个候选响应中选择最优结果'，结合模型自反馈机制进一步降低幻觉、提升输出质量。

一、核心定义

Best of N（BoN）：在模型推理时，对同一个输入（图像 + 提示词）生成 N 个不同的候选响应，通过预设的评分标准（如 RLAIF-V 的自反馈奖励分数）筛选出分数最高的 1 个响应作为最终输出，本质是'多候选择优'的推理优化策略。

二、设计原理

解决的核心问题：单轮推理的随机性可能导致模型输出存在幻觉或信息偏差，而多轮采样能覆盖更丰富的输出空间；同时，DPO 对齐后的模型自带'奖励评估能力'，可通过自反馈区分候选响应的可信度差异。
与自反馈的结合逻辑：
- RLAIF-V 的核心创新是将 DPO 对齐后的模型同时作为'生成器'和'评估器'：生成器负责产生 N 个候选响应，评估器通过自反馈奖励函数对每个响应打分；
- 奖励函数已通过'长度归一化'修正了 DPO 固有的'短响应偏好'，确保评分公平性（避免因响应长度而非内容质量导致的误选）。

三、具体实现细节

1. 候选响应生成

采样方式：采用核采样（nucleus sampling, top-p） 而非贪心搜索，目的是在保证输出多样性的同时避免无意义的随机文本；
采样数量（N 的选择）：论文根据模型规模调整 N 以控制计算成本：
- RLAIF-V 7B（小参数量模型）：采样 32 个候选响应；
- RLAIF-V 12B（大参数量模型）：采样 16 个候选响应；

2. 评分与筛选

评分依据：使用 RLAIF-V 的自反馈奖励分数，公式为： $$r(y) = \frac{\beta}{T} \log \frac{\pi_{\theta}(y)}{\pi_{ref}(y)}$$ 其中：
$r(y)$ 为响应 y 的最终奖励分数；
$\beta$ 为控制与基准策略偏离程度的参数；
$T$ 为响应长度（长度归一化项，修正短响应偏好）；
$\pi_{\theta}(y)$ 为 DPO 对齐后模型的输出概率；
$\pi_{ref}(y)$ 为基准模型的输出概率。
筛选规则：直接选择奖励分数最高的候选响应作为最终输出，无需额外人工干预。

四、实验效果

BoN 策略显著提升了模型的可信度和有用性，具体表现为：

幻觉率进一步降低：
- RLAIF-V 7B + BoN：Object HalBench 响应级幻觉率从 10.5% 降至 6.8（相对降低 35.2%）；

策略	核心逻辑	评分依据	适用场景
Best of N（RLAIF-V）	多候选采样 + 自反馈评分	模型自反馈奖励（带长度归一化）	开源对齐模型，追求全自动化
人类筛选	多候选采样 + 人工评分	人类偏好	高价值场景
集成推理（Ensemble）	多模型生成 + 投票/加权融合	模型输出一致性	无自评估能力的基础模型

RLAIF-V：开源 AI 反馈助力多模态模型可信度超越 GPT-4V

论文总结

核心目标

核心创新

关键结果

Best of N 策略说明

一、核心定义

二、设计原理

三、具体实现细节

1. 候选响应生成

2. 评分与筛选

四、实验效果

更多推荐文章

相关免费在线工具

五、核心价值与适用场景

六、与其他'多候选策略'的区别

摘要

1. 引言

2. RLAIF-V 框架

2.1 响应生成

2.2 反馈标注

2.3 迭代反馈学习

2.4 推理阶段自反馈

3. 实验

3.1 实验设置

3.2 主要结果

3.3 消融实验

3.4 分析

4. 相关工作

5. 结论

更多推荐文章

相关免费在线工具

RLAIF-V：开源 AI 反馈助力多模态模型可信度超越 GPT-4V

论文总结

核心目标

核心创新

关键结果

Best of N 策略说明

一、核心定义

二、设计原理

三、具体实现细节

1. 候选响应生成

2. 评分与筛选

四、实验效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

五、核心价值与适用场景

六、与其他'多候选策略'的区别

摘要

1. 引言

2. RLAIF-V 框架

2.1 响应生成

2.2 反馈标注

2.3 迭代反馈学习

2.4 推理阶段自反馈

3. 实验

3.1 实验设置

3.2 主要结果

3.3 消融实验

3.4 分析

4. 相关工作

5. 结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具