多模态大模型对文本预训练知识的过度依赖该解决了
随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶、医疗助手等多种潜在应用领域带来了可能性。
问题背景:幻觉与偏见
尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的回答,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。
多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。这导致模型在推理时倾向于依赖其强大的文本先验知识,而非实际观察到的视觉信息。这种现象被称为'文本预训练知识的过度依赖',即模型可能'以为'看到了它根据文本概率预测应该看到的东西,而不是真正基于图像内容生成的响应。
解决方案:Bootstrapped Preference Optimization (BPO)
为了解决上述问题,我们提出了一种偏好对齐方法——Bootstrapped Preference Optimization(BPO)。该方法旨在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。我们将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好。
可扩展的偏好数据集构建
对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。
为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种自动化构建大规模偏好数据集的方法:
- 弱化图像提示:给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从实验观察来看,我们通过向图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。这种方法有效地迫使模型暴露其对文本先验的依赖。
- 错误注入:要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。这模拟了模型在置信度较高但事实错误的情况下的输出行为。
接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化。DPO 是一种无需显式奖励模型的偏好优化方法,它通过最大化正样本相对于负样本的对数几率差来更新策略模型参数。公式上,我们最小化以下损失函数:
$$\mathcal{L}{DPO} = - \log \sigma \left( \beta \log \frac{\pi\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right)$$
其中 $y_w$ 为正样本,$y_l$ 为负样本,$x$ 为输入,$\pi_{ref}$ 为参考模型,$\beta$ 为温度系数。
实验评估
我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在多个基准测试榜单上进行测试,包括 MM-Vet、LLaVA-Wild 和 Object HalBench。
- MM-Vet:专门用来衡量模型综合能力的榜单,涵盖视觉定位、OCR、数学计算等多个维度。
- LLaVA-Wild:评估模型在开放域场景下的表现。
- Object HalBench:专门评估多模态大模型的视觉可信度,检测幻觉程度。
实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。这证明了即使参数量较小,通过高质量的偏好数据对齐也能显著提升性能。
我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。这说明引入负样本并构建偏好学习框架比单纯的监督学习更能抑制模型的文本偏见。
在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。例如,当图像中包含特定物体但文本描述模糊时,BPO 模型更倾向于依据视觉特征回答,而不是套用常见的文本模板。
结论与展望
本文提出的 BPO 方法为多模态大模型的幻觉问题提供了一条新的解决路径。通过将预训练偏见显式地建模为负样本,并利用 DPO 进行偏好优化,我们成功地在保持模型通用能力的同时增强了其视觉感知的准确性。
未来的工作可以进一步探索更复杂的负样本构建策略,例如结合对抗攻击生成更具挑战性的错误样本,或者研究如何在不同模态之间实现更细粒度的对齐。此外,将 BPO 思想应用于其他多模态任务(如视频理解、语音交互)也是值得探索的方向。
更多研究细节,可参考原论文 Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization。