吴恩达团队研究:多模态多样本上下文学习无需微调即可适应新任务
斯坦福吴恩达团队评估了先进多模态基础模型在多样本上下文学习中的表现。研究发现,利用大量演示示例可快速适应新任务而无需微调。批量查询显著降低延迟和成本。Gemini 1.5 Pro 在数据效率上优于 GPT-4o。该研究为多模态应用开辟了新路径,建议开发者优先利用长上下文窗口和批量 API 调用来构建高效系统。

斯坦福吴恩达团队评估了先进多模态基础模型在多样本上下文学习中的表现。研究发现,利用大量演示示例可快速适应新任务而无需微调。批量查询显著降低延迟和成本。Gemini 1.5 Pro 在数据效率上优于 GPT-4o。该研究为多模态应用开辟了新路径,建议开发者优先利用长上下文窗口和批量 API 调用来构建高效系统。

本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习(Many-shot In-Context Learning),揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。
在近期的多模态基础模型(Multimodal Foundation Model)研究中,上下文学习(In-Context Learning, ICL)已被证明是提高模型性能的有效方法之一。ICL 允许模型通过输入提示中的示例直接生成输出,而无需更新模型参数。
然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本(Few-shot)。这限制了模型利用更多先验知识的能力。
令人激动的是,最新的技术进步大大增加了模型的上下文窗口(Context Window),这为探索使用更多示例进行上下文学习提供了可能性。基于此,斯坦福吴恩达团队的最新研究——ManyICL,主要评估了目前最先进的多模态基础模型在从少样本(少于 100)到多样本(最高至 2000)上下文学习中的表现。
通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。
图 1:Many-shot ICL 与零样本、少样本 ICL 的比较示意图
本研究选择了三种先进的多模态基础模型进行评估:
出于 GPT-4o 优越的表现,研究团队在正文中着重讨论 GPT-4o 和 Gemini 1.5 Pro,GPT4 (V)-Turbo 的相关内容请参阅附录。
数据集方面,研究团队在 10 个跨越不同领域的基准数据集上进行了广泛的实验。这些领域包括:
任务类型涵盖:
图 2:基准数据集汇总
为了测试增加示例数量对模型性能的影响,研究团队逐步增加了上下文中提供的示例数量,最高达到近 2000 个示例。同时,考虑到多样本学习的高成本和高延迟,研究团队还探索了批量处理查询的影响。
在这里,批量查询指的是在单次 API 调用中处理多个查询请求。这种机制利用了现代大模型 API 的并行处理能力,旨在优化资源利用率。
包含近 2000 个示例的多样本上下文学习在所有数据集上均优于少样本学习。随着示例数量的增加,模型性能呈现不同的趋势:
图 3:示例数量与模型性能关系曲线
研究测量了模型的上下文学习数据效率,即模型从示例中学习的速度。结果表明,Gemini 1.5 Pro 在绝大部分数据集上显示出比 GPT-4o 更高的上下文学习数据效率,意味着它能够更有效地从示例中提取特征并进行泛化。
图 4:数据效率对比分析
在选择最优示例集大小下的零样本和多样本情境中,将多个查询合并为一次请求,不会降低性能。值得注意的是,在零样本场景中,单个查询在许多数据集上表现较差。相比之下,批量查询甚至可以提高性能。
图 5:批量查询与单查询性能对比
对于某些数据集(如 UCMerced),批量查询在零样本场景下显著提高了性能。研究团队分析认为,这主要归因于以下三个因素:
图 6:零样本场景下批量查询增益
多样本上下文学习虽然在推理时需要处理更长的输入上下文,但通过批量查询可以显著降低每个示例的延迟和推理成本。
例如,在 HAM10000 数据集中,使用 Gemini 1.5 Pro 模型进行 350 个示例的批量查询:
这一数据表明,批量处理是大规模部署多模态应用的关键优化手段。
图 7:批量查询成本与延迟优化
研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。
其次,批量处理查询可以在相似甚至更好的模型表现的同时,降低推理成本和延迟,显示出在实际应用中的巨大潜力。
总的来说,吴恩达团队的这项研究为多模态基础模型的应用开辟了新的路径,特别是在快速适应新任务和领域方面。对于开发者而言,这意味着在未来的 AI 应用开发中,应优先考虑利用长上下文窗口和批量 API 调用来构建高效、低成本的多模态系统。
未来工作可进一步探索动态示例选择算法,以及如何自动筛选最相关的演示样本以进一步提升效率。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online