跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
编程语言AI算法

Math-LLaVA:增强多模态大语言模型的数学推理能力

综述由AI生成Math-LLaVA 基于 LLaVA-1.5 架构,通过构建包含 40 万高质量图像问答对的 MathV360K 数据集进行微调,显著提升了多模态大语言模型的数学推理能力。该研究从 24 个现有数据集中筛选高质量图像,并利用 GPT-4V 合成多样化问题以增强视觉信息利用。实验表明,Math-LLaVA 在 MathVista 基准测试中达到 46.6% 准确率,超越多数开源模型并与 GPT-4V 相当,同时展现了良好的泛化能力且未出现过拟合现象。

数字游民发布于 2025/2/7更新于 2026/5/1313 浏览
Math-LLaVA:增强多模态大语言模型的数学推理能力

Math-LLaVA:增强多模态大语言模型的数学推理能力

一、结论写在前面

本文介绍的论文来自电子科技大学、新加坡科技设计大学、同济大学、新加坡国立大学。

论文标题: Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models 论文链接: https://arxiv.org/pdf/2406.17294 代码和数据: https://github.com/HZQ950419/Math-LLaVA

LLMs 在文本数学问题解决方面展示了令人印象深刻的推理能力。然而,现有的开源图像指令微调数据集,每个图像包含有限的问题 - 答案对,未能充分利用视觉信息来增强多模态 LLMs(MLLMs)的数学推理能力。

为了填补这一空白,论文通过从 24 个现有数据集中收集 40K 高质量图像及其问题 - 答案对,并合成 320K 新对,创建了 MathV360K 数据集,该数据集增强了多模态数学问题的广度和深度。论文引入了基于 LLaVA-1.5 的 Math-LLaVA 模型,该模型通过 MathV360K 进行微调。

这一新颖方法显著提升了 LLaVA-1.5 的多模态数学推理能力,实现了 19 个百分点的提升,并在 MathVista 的迷你测试分组上与 GPT-4V 表现相当。此外,Math-LLaVA 展示了增强的泛化能力,在 MMMU 基准上取得了显著进步。论文的研究强调了数据多样性和合成在提升 MLLMs 数学推理能力中的重要性。

二、论文的简单介绍

2.1 论文的背景

多模态数学推理任务要求模型解释多样化的图像并应用高级推理技能。尽管开源的多模态大型语言模型(MLLMs)如 LLaVA 和 Mini-GPT4 在视觉问答任务上表现良好,但它们在解决涉及视觉内容的复杂数学问题方面仍不及专有的 MLLMs。

提升多模态大型语言模型(MLLMs)数学推理能力的两种常见方法是提示方法和微调方法。提示方法通过精心设计的提示利用 MLLMs 的潜在能力,而微调方法则使用从现实世界或高级 LLMs(如 GPT-4)生成的合成数据中收集的推理数据来调整模型参数。然而,现有的开源图像指令微调数据集,每张图像包含的问答对数量有限,未能充分利用视觉信息来增强 MLLMs 的多模态数学推理能力。

为了填补这一空白,论文从 24 个现有数据集中选取了 40K 张高质量图像及其对应的问答对。这些图像和问题涵盖了代数、算术、几何、逻辑、数值常识、科学和视觉问答等多个学科。选取标准基于图像清晰度和理解复杂性。此外,论文提出了一种流程,基于这 40K 张图像和种子查询合成 320K 个新问答对。

2.2 数据合成

现有的开源图像指令微调数据集,每张图像包含有限的问答对,未能充分发掘视觉信息以增强 MLLM 的多模态数学推理能力。

为此,论文提出 MathV360K,一个基于 40K 精选图像和多子领域种子问答对合成的强大数据集。如图 1 左侧所示,论文首先从 24 个开源多模态问答数据集中,根据图像清晰度和理解复杂度筛选出 40K 高质量数据点。在第二步,如图 1 右上方所示,论文尝试充分挖掘图像的视觉信息以生成额外问题。数据生成流程包括创建多样化的新问题以充分发掘视觉信息、更复杂的问题以进一步提高推理能力,重述问题和未明确指定的问题以提高模型的鲁棒性。通过数据生成流程,论文为选定的 40K 数据点收集了 36 万条高质量且多样化的指令调优数据,以增强 LLaVA-1.5 开源模型的图像理解和数学推理能力。

图 1:提出的多模态问答数据选择与数据增强的整体流程图

图 1:提出的多模态问答数据选择与数据增强的整体流程图。论文的数据选择依赖于微调后的 ViT 作为图像分类器。数据生成过程依赖于视觉 - 语言模型

2.2.1 多模态推理数据选择
2.2.1.1 源数据

论文收集了 24 个视觉问答和多模态数学推理数据集,每个数据集针对特定的任务类型和视觉内容。论文聚焦于需要高级推理的五种问题任务类型来编译源数据集:图表问答(FQA)、几何问题解决(GPS)、数学文字问题(MWP)、教科书问答(TQA)和视觉问答(VQA)。附录中的表 5 展示了每个源数据集的任务类型和视觉内容的更多细节。

每个多模态训练样本包含三个组成部分:一张图像,一个文本问题,以及一个真实答案。从这种数据格式中,模型旨在捕捉视觉信息和问题语义以推理出最终答案。

2.2.1.2 图像过滤与比例分配

在获取 24 个源数据集后,论文根据以下标准有意识地从原始图像中选择数据:

  1. 图像的清晰度:因为质量差的图像会引入噪声并干扰图像语义的学习;
  2. 图像的理解复杂度:从简单到复杂不等。通过将图像分类为不同的复杂度级别并按比例选择,论文可以形成一个具有适当难度分布的训练集;
  3. 相应文本问题数据的质量:确保难度与图像的理解复杂度相匹配。

论文微调了两个 Vision Transformer(ViT)模型,分别用于图像清晰度和图像理解复杂度的分类。由于缺乏标注的图像数据,论文首先从源数据集中均匀且随机地采样了 10K 张图像。这些图像使用 GPT-4V(OpenAI)进行清晰度和理解复杂度的标注,论文设计的提示语如图 2 所示。对于图像清晰度,标签 0 表示模糊、质量差的图像,标签 1 表示清晰、质量好的图像。图像理解复杂度由对象数量、它们的位置关系、是否需要数学计算、细节级别、纹理和材质属性决定。图像被分为 0、1、2 和 3 四个评分,评分越低表示视觉上下文理解越容易。基于这 10K 张标注图像,论文使用交叉熵损失训练了两个 ViT 模型,并初始化了全连接层进行分类。论文首先使用微调后的图像清晰度分类器对所有源训练数据集图像进行分类,并过滤掉标签为 0 的图像。表 5 显示了过滤前(即训练图像)和过滤后(即清晰图像)的图像数量。

接下来,论文使用图像理解复杂度分类器对筛选后的图像进行评分。表 5 显示,大多数图像被分类为中等复杂度,其次是简单,最后是最复杂。考虑到简单图像更容易学习,而复杂图像更难且需要更多参考样本,论文采用从简单到复杂的渐进比例对前三个复杂度类别进行采样。由于评分 3 的图像最为稀缺,论文收集了所有这些图像。论文根据总体复杂度 2:3:4:1 的比例选择了 40K 数据点,确保从每个源数据集中均匀选择不同复杂度的样本。因此,论文获得了 40K 高质量(1, Q, A)真实数据点,这些数据点在图像信息和问题难度上具有多样性和渐进性。

图 2:论文在 GPT-4V API 中用于图像标注的提示模板

图 2:论文在 GPT-4V API 中用于图像标注的提示模板。图像清晰度被视为二元分类,而图像理解复杂度被视为多分类

2.2.2 数据增强
2.2.2.1 挖掘图像以生成 QA

在选择了 40K 多模态推理数据后,论文观察到每张图像通常对应有限的问题。如图 1 的表格图像所示,原始问题往往仅关注局部算术差异。然而,还可以提出关于总体平均值、连续变化等问题,表明仅通过一个问题并未充分利用图像的视觉信息。因此,论文可以通过为每张图像生成更多的问题 - 答案对来进一步增强可用真实数据。

论文使用 GPT-4V 根据输入图像和原始问题生成额外的问题。如果以零样本方式生成问题,它们往往聚焦于单方面的视觉场景,缺乏推理和数学技能。对于来自特定任务的图像,如几何图形,应提出更多任务特定的问题。因此,论文采用少样本示范方法让 GPT-4V 生成新问题。

对于属于某一类别(FQA、GPS、MWP、TQA、VQA)的图像,论文首先将每个任务类别内的源数据集问题内部聚类为五个类别。具体来说,使用 TF-IDF 获取文本问题的特征,并使用 K-Means 进行聚类。如图 4 所示,论文以 IconQA 为例。在训练集中对问题进行聚类后,每个聚类内部代表一种特定的提问格式和模式,可供参考。通过从属于某个任务类型的每个源数据集的每个聚类中随机抽取一个问题来构建示范。

生成输入图像新问题的提示如图 3 所示。这种方法确保新生成的问题与原始参考问题的分布一致,同时提高多样性。通过这种方法,论文基于选定的 40K 数据点生成了 200K 个新的问题 - 答案对。

图 3:论文使用的 GPT-4V API 提示模板为每个输入图像生成额外问题

图 3:论文使用的 GPT-4V API 提示模板为每个输入图像生成额外问题。演示通过从每个源数据集的每个集群中随机抽取一个问题构建,以适应特定任务类型

2.2.2.2 原始问题增强

论文设计了提示来增强原始问题,如图 5 所示。使用 GPT-4V,论文生成了 40K 个更复杂的问题、40K 个简化的问题和 40K 个改写的问题。增强主要集中在以下方面:

  • 复杂性:更复杂的推理样本可以增强微调 LLMs(大型语言模型)的推理能力。论文的第一种方法是在原始图像和相应询问的基础上创建更复杂的问题。
  • 逻辑一致性:鲁棒的多模态大型语言模型(MLLMs)应对给定图像中的相似内容提供一致的回答。论文采用 GPT-4V,通过不同方式提问相同问题,确保答案不变。
  • 语义欠规范:鲁棒的 MLLMs 必须处理语义欠规范问题,即语言信号仅传达了成功交流所需的部分信息。因此,论文在不影响与图像结合的语义理解的前提下,简化了原始问题。

图 5:在论文的 GPT-4V API 中使用的提示模板,用于从原始问题文本生成更复杂、逻辑一致和欠规范的问题

2.3 实验

2.3.1 模型与训练

论文采用 LLaVA-1.5 架构作为基础模型,主要包含 Vicuna-v1.5 语言模型(Team, 2023)和预训练的 Vision Transformer(ViT)作为图像编码器。为了保持基础模型卓越的视觉感知和描述能力,论文使用提出的 MathV360K 指令调优数据集对 LLaVA-1.5-13B 进行微调。该数据集中多样的问题模式和丰富的视觉内容增强了模型的多模态数学推理能力,同时保持其通用的视觉 - 语言理解技能。

2.3.2 评估与指标

论文采用零样本方式,使用 MathVista 的 minitest 子集来评估论文的模型。该 minitest 子集包含 1000 个样本,其中包括 540 道多项选择题和 460 道需要以整数、浮点数或列表形式自由作答的问题。Math-Vista 充分评估了 MLLMs 在多模态数学技能方面的能力,涵盖代数推理(ALG)、算术推理(ARI)、几何推理(GEO)、逻辑推理(LOG)、数值常识(NUM)、科学推理(SCD)和统计推理(STA)。此外,Math-Vista 的问题可以分为以下子集:FQA、GPS、MWP、TQA 和 VQA。在评估过程中,论文首先利用 GPT-4 从响应中提取预测选项或答案,然后报告答案准确性,即判断最终答案是否与标准答案匹配。此外,论文还使用 MMMU 基准来评估论文模型的增强泛化能力。

MMMU 基准包含 900 个评估样本,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程,适合评估 MLLMs 推理能力的泛化性。

2.3.3 实施细节

论文利用 GPT-4V(GPT-4 Vision Preview)进行数据生成过程。为了对图像清晰度和理解复杂度进行分类,论文微调了两个 ViT-Large-Patch16-224 模型,每个模型的学习率为 2e-4,训练周期为 5 个 epoch。

图 4:T-SNE 对 K-Means 的可视化

图 4:T-SNE 对 K-Means 的可视化。论文以 IconQA 为例。每个集群的提问格式可以作为参考,用于生成类似视觉内容的新问题

对于 LLaVA-1.5-13B 模型,输入图像分辨率设置为 336 乘 336 像素。投影线性层和语言模型均可训练。在微调阶段,论文设置学习率为 2e-5,采用批量大小为 16,并使用配备 80GB 内存的 A800 GPU 进行 2 个周期的微调。

2.4 结果与分析

2.4.1 主要比较:MathVista

论文在 MathVista 基准的 minitest 分割上比较了 Math-LLaVA 与其他多模态语言模型(MLLMs),结果如表 1 所示。如图所示,开源 MLLMs 如 miniGPT4、instructBLIP 和 LLaVA-1.5-13B 在多模态数学方面表现不佳,总体准确率低于 30%。

与基础模型 LLaVA-1.5-13B 相比,其多模态数学能力较差,Math-LLaVA 实现了 46.6% 的总体准确率,显著提升了 19%。更令人惊讶的是,提出的 Math-LLaVA 模型超过了闭源模型 Gemini 1.0 Pro 和 Claude 3 Haiku,甚至达到了与 GPT-4V(OpenAI)相当的性能,最强大的闭源 MLLMs。

Math-LLaVA 在 GPS 子集上达到了 57.7% 的准确率,超过了 G-LLaVA-13B(Gao et al., 2023),后者已在 170K 高质量的几何图像 - 标题和问题 - 答案对上进行了训练。Math-LLaVA 的优越性能表明,高质量、多样化的多模态问题 - 答案对的数据选择和合成在提高 MLLM 的多模态数学推理能力方面是有效的。

2.4.2 Math-LLaVA 的泛化能力

提出的 Math-LLaVA 模型在多模态数学推理任务中展示了出色的性能。为了评估其泛化能力,论文使用包含各种学科和领域的 MMMU 基准进行了评估实验。结果如表 2 所示。仅使用选定的数据,Math-LLaVA 在科学子集上的性能有所下降。

然而,论文可以观察到,在 MathV360K 上微调的 Math-LLaVA 模型在所有六个子领域上都能显著超越基础模型 LLaVA-1.5-13B,以及其他几个开源 MLLMs。这种优越性能突显了其向下的多模态理解和推理任务的泛化能力。此外,使用论文的合成数据进行微调的过程并没有削弱模型在其他领域的推理能力;相反,它增强了其泛化能力。

表 1:与 MathVista 基准测试 mini 集上的基准对比

表 1:与 MathVista 基准测试 mini 集上的基准对比。基准结果来自 Lu et al. (2023)。"表示论文复现的 LLaVA-1.5-13B 结果。闭源和开源 MLLMs 中的最佳结果以粗体显示。MathVista 分为两种方式:任务类型或数学技能,论文报告每个子集的准确性

2.4.3 对合成数据集的过拟合问题

提出的数据合成流程为每张图像生成额外的问答对,以增强 MLLMs 的数学推理能力。直观上,论文应该探究所提出的模型 Math-LLaVA 是否在生成的问答对上发生过拟合。如果发生过拟合,Math-LLaVA 可能会记忆或检索图像信息,而不需要任何视觉输入。

为了检查这一点,论文比较了 Math-LLaVA 在数据合成前后的性能,分别称为 Math-LLaVA-DS 和 Math-LLaVA,在 MathVista 上仅使用文本输入进行测试。如表 3 所示,Math-LLaVA 在没有视觉信息的情况下进行推理时,在 MathVista 上表现出与 Math-LLaVA-DS 相似的性能,约为 32.0%。此外,仅使用文本数据对 Math-LLaVA 进行微调也得到了类似的观察结果。这表明 Math-LLaVA 模型并未在合成的问答对上发生过拟合。

有趣的是,论文也观察到,仅使用文本输入时,LLaVA-1.5-13B 在 MathVista 上的准确率为 23.3%。潜在的原因,如 (Chen et al., 2024b) 所探讨的,可能是 MathVista 中的许多样本不需要视觉内容,并且在 LLMs 和 MLLMs 的预训练过程中可能发生了无意中的数据泄露。

2.4.4 合成数据的有效性

为了验证数据选择和提出的数据增强策略的有效性,论文对 MathV360K 的各个组件进行了独立实验。首先,论文在源数据集中随机抽取 40K 个数据点对 LLaVA-1.5 模型进行微调,不进行任何选择,以展示数据过滤和比例调整的效果。

随后,论文分别将选定的 40K 数据点与使用四种增强方法生成的数据结合:为 QA 生成挖掘图像(AskImg),提出复杂问题(CompQ),重新表述问题为了逻辑一致性(RephQ),以及简化问题以解决不明确性(SimpQ)。表 4 展示了不同增强组合在 MathVista 上达到的准确率。结果表明,论文的数据合成方法,结合了数据选择和每种增强方法,取得了更好的性能。综合这些策略,相较于随机采样 40K 数据点,实现了显著的 11% 提升。

表 2:在 MMMU 基准上与基线模型的比较

表 3:仅使用 Math-Vista 的文本作为输入进行推理的结果

表 4:数据选择和不同数据增强策略在 MathVista 上的有效性

2.4.5 每种任务类型增强的提升效果

鉴于论文从五种不同的问答任务类型中选择了数据,论文的目标是研究哪些类型或技能在多模态数学推理中可以通过增强每个单独任务类别的源数据得到提升。为此,论文对新数据进行了实验,针对每种任务类型合成的数据,与选定的数据混合。MathVista 上的结果如图 6 所示。

论文观察到,对各种类型的源数据进行增强可以进一步提高模型在相应任务上的性能。特别是在涉及 FQA、MWP 和 VQA 的任务中,增强效果尤为显著。有趣的是,针对单一任务类型的数据增强也显示出对其他任务类型有效性的提升,这可能是因为不同任务之间所需的推理技能存在重叠。

图 6:通过针对每种任务类型的增强在 MathVista 上的准确性

三、总结

Math-LLaVA 通过构建大规模高质量数据集和先进的数据合成策略,有效解决了多模态大模型在数学推理任务上的瓶颈。研究证明了数据质量和多样性对于提升模型性能的关键作用,为后续多模态 AI 的发展提供了重要的参考方向。该方法不仅提升了特定数学任务的表现,还保持了模型在通用视觉理解任务上的能力,展现了良好的平衡性与扩展性。

目录

  1. Math-LLaVA:增强多模态大语言模型的数学推理能力
  2. 一、结论写在前面
  3. 二、论文的简单介绍
  4. 2.1 论文的背景
  5. 2.2 数据合成
  6. 2.2.1 多模态推理数据选择
  7. 2.2.1.1 源数据
  8. 2.2.1.2 图像过滤与比例分配
  9. 2.2.2 数据增强
  10. 2.2.2.1 挖掘图像以生成 QA
  11. 2.2.2.2 原始问题增强
  12. 2.3 实验
  13. 2.3.1 模型与训练
  14. 2.3.2 评估与指标
  15. 2.3.3 实施细节
  16. 2.4 结果与分析
  17. 2.4.1 主要比较:MathVista
  18. 2.4.2 Math-LLaVA 的泛化能力
  19. 2.4.3 对合成数据集的过拟合问题
  20. 2.4.4 合成数据的有效性
  21. 2.4.5 每种任务类型增强的提升效果
  22. 三、总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • GPT-5.5 超高智商模型1元抵1刀ChatGPT中转购买
  • 代充Chatgpt Plus/pro 帐号了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • PyTorch 时序预测 Dataloader 构建:GRU 与 Shuffle 机制解析
  • ROG-Map:一种高效的大场景 LiDAR 运动规划网格地图方案
  • ClawdBot 本地部署:零配置 Telegram AI 翻译机器人
  • AI 编程助手价格与体验对比:Claude Code vs 国产替代
  • Spring AOP 核心概念、应用场景与底层原理详解
  • Linux 下 Conda 安装与使用指南:从下载到环境管理
  • Web 开发中五种核心加密算法实战与原理
  • Llama-Factory 是否支持 RLHF?现状与实践路径
  • RMBG-2.0 接入 Stable Diffusion 工作流实现图像生成与抠图合成
  • Ollama Windows 安装与使用指南:本地运行 Llama 等模型
  • 基于 OpenClaw + 飞书实现 AI 新闻推送机器人
  • 基于强化学习的无人机端到端飞行控制算法开发
  • 腾讯混元 Image 2.1 GGUF 格式本地部署指南
  • HarmonyOS6 RcInput 组件核心架构与类型系统设计
  • LeetCode 141: 环形链表判断算法详解
  • Python 副业开发指南:常见渠道、接单技巧与防骗策略
  • 基于 YOLOv8 系列的乡村道路路面缺陷智能检测与预警系统开发
  • 开源大模型与闭源大模型的区别及选择指南
  • OpenClaw WebUI 空白页故障排查与修复
  • FastGPT 集成 MCP 协议构建工具增强型智能体

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online