Math-LLaVA：增强多模态大语言模型的数学推理能力

一、结论摘要

本文介绍的论文来自电子科技大学、新加坡科技设计大学、同济大学、新加坡国立大学。

论文标题： Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

论文链接： https://arxiv.org/pdf/2406.17294

代码和数据： https://github.com/HZQ950419/Math-LLaVA

大型语言模型（LLMs）在文本数学问题解决方面展示了令人印象深刻的推理能力。然而，现有的开源图像指令微调数据集，每个图像包含有限的问题 - 答案对，未能充分利用视觉信息来增强多模态 LLMs（MLLMs）的数学推理能力。

为了填补这一空白，论文通过从 24 个现有数据集中收集 40K 高质量图像及其问题 - 答案对，并合成 320K 新对，创建了 MathV360K 数据集，该数据集增强了多模态数学问题的广度和深度。论文引入了基于 LLaVA-1.5 的 Math-LLaVA 模型，该模型通过 MathV360K 进行微调。

这一新颖方法显著提升了 LLaVA-1.5 的多模态数学推理能力，实现了 19 个百分点的提升，并在 MathVista 的迷你测试分组上与 GPT-4V 表现相当。此外，Math-LLaVA 展示了增强的泛化能力，在 MMMU 基准上取得了显著进步。论文的研究强调了数据多样性和合成在提升 MLLMs 数学推理能力中的重要性。

二、论文详细介绍

2.1 研究背景

多模态数学推理任务要求模型解释多样化的图像并应用高级推理技能。尽管开源的多模态大型语言模型（MLLMs）如 LLaVA 和 Mini-GPT4 在视觉问答任务上表现良好，但它们在解决涉及视觉内容的复杂数学问题方面仍不及专有的 MLLMs。

提升多模态大型语言模型（MLLMs）数学推理能力的两种常见方法是提示方法和微调方法。提示方法通过精心设计的提示利用 MLLMs 的潜在能力，而微调方法则使用从现实世界或高级 LLMs（如 GPT-4）生成的合成数据中收集的推理数据来调整模型参数。然而，现有的开源图像指令微调数据集，每张图像包含的问答对数量有限，未能充分利用视觉信息来增强 MLLMs 的多模态数学推理能力。

为了填补这一空白，论文从 24 个现有数据集中选取了 40K 张高质量图像及其对应的问答对。这些图像和问题涵盖了代数、算术、几何、逻辑、数值常识、科学和视觉问答等多个学科。选取标准基于图像清晰度和理解复杂性。此外，论文提出了一种流程，基于这 40K 张图像和种子查询合成 320K 个新问答对。

2.2 数据合成策略

现有的开源图像指令微调数据集，每张图像包含有限的问答对，未能充分发掘视觉信息以增强 MLLM 的多模态数学推理能力。

为此，论文提出 MathV360K，一个基于 40K 精选图像和多子领域种子问答对合成的强大数据集。如图 1 左侧所示，论文首先从 24 个开源多模态问答数据集中，根据图像清晰度和理解复杂度筛选出 40K 高质量数据点。在第二步，如图 1 右上方所示，论文尝试充分挖掘图像的视觉信息以生成额外问题。数据生成流程包括创建多样化的新问题以充分发掘视觉信息、更复杂的问题以进一步提高推理能力，重述问题和未明确指定的问题以提高模型的鲁棒性。通过数据生成流程，论文为选定的 40K 数据点收集了 36 万条高质量且多样化的指令调优数据，以增强 LLaVA-1.5 开源模型的图像理解和数学推理能力。

图 1：提出的多模态问答数据选择与数据增强的整体流程图。论文的数据选择依赖于微调后的 ViT 作为图像分类器。数据生成过程依赖于视觉 - 语言模型

2.2.1 多模态推理数据选择

2.2.1.1 源数据

论文收集了 24 个视觉问答和多模态数学推理数据集，每个数据集针对特定的任务类型和视觉内容。论文聚焦于需要高级推理的五种问题任务类型来编译源数据集：图表问答（FQA）、几何问题解决（GPS）、数学文字问题（MWP）、教科书问答（TQA）和视觉问答（VQA）。附录中的表 5 展示了每个源数据集的任务类型和视觉内容的更多细节。

每个多模态训练样本包含三个组成部分：一张图像，一个文本问题，以及一个真实答案。从这种数据格式中，模型旨在捕捉视觉信息和问题语义以推理出最终答案。

Math-LLaVA：增强多模态大语言模型的数学推理能力