多模态大模型技术综述与通用人工智能展望
1. 前言
2023 年 3 月,OpenAI 发布的 GPT-4 掀起了多模态大模型的研究浪潮。随后,国内诸多研究机构纷纷加入多模态大模型的研发,包括智谱清言、华为盘古大模型、腾讯混元大模型、百度文心一言、讯飞星火大模型及百川大模型等。
2024 年 2 月,OpenAI 发布了'从文本到视频'生成式 AI 模型 Sora,其强大的长视频生成能力和物理世界模拟能力,再次激发了研究者对世界模型和通用人工智能(AGI)的憧憬。
多模态大模型作为新一代人工智能的核心技术,将我们带入了人工智能新时代。AIGC、世界模型、具身智能、超级智能体等关键词频繁出现在各大新闻头条中,标志着人工智能正经历着范式转变。在全球竞相发展新一代人工智能技术的时代背景下,2024 年的《政府工作报告》明确指出要加快发展新质生产力,并首次提出'人工智能+'行动,这标志着人工智能已成为引领新质生产力发展的关键引擎。
回顾历史,自 1956 年起,人工智能的发展经历了三次大的浪潮:
- 第一次浪潮(1956—1976 年):符号主义(逻辑主义)发展迅速。
- 第二个浪潮(1976—2006 年):联结主义得到发展。
- 第三次浪潮(2006 年至今):深度神经网络再次受到重视。
此后,有两个汹涌澎湃的大浪:
- 第一个大浪(2012 年开始):以人脸识别为代表的计算机视觉发展,图像分类与视频理解等技术进步显著。
- 第二个大浪(2022 年底开始):以 ChatGPT 为代表的大语言模型技术发展,创造了自 iPhone 推出以来计算机技术对社会发展的最大冲击。
多模态大模型是这场技术范式变革的核心,是迈向通用人工智能的关键。它包含自然语言处理、计算机视觉、机器人和具身智能等技术分支。由于近年来积累的大量研究成果分散在多个领域,表述习惯、用词、数学变量符号及专业术语不尽相同,给初学者的学习带来一定困难。本文旨在系统梳理多模态大模型的技术脉络。
2. 大模型基础架构
2.1 BERT 技术详解
BERT(Bidirectional Encoder Representations from Transformers)是预训练语言模型的代表。其核心结构基于 Transformer 编码器,通过双向上下文信息捕捉语义。
- 模型结构:采用多层 Transformer Encoder,支持深层双向表示。
- 预训练任务:主要包括掩码语言建模(MLM)和下一句预测(NSP)。
- 下游应用:广泛用于文本分类、命名实体识别、问答系统等任务。
2.2 ViT 技术详解
ViT(Vision Transformer)将 Transformer 架构应用于计算机视觉领域。
- 模型结构:将图像分割为固定大小的 Patch,线性嵌入后输入 Transformer。
- 预训练任务:通常使用 Masked Image Modeling (MIM) 或对比学习。
- 意义:证明了纯 Transformer 架构在视觉任务上的有效性,无需卷积操作。
2.3 GPT 系列
GPT(Generative Pre-trained Transformer)系列基于 Decoder-only 架构,专注于自回归生成。
- GPT-1/2/3:逐步增加参数量与数据规模,提升生成质量与泛化能力。
- ChatGPT:基于 InstructGPT 微调,引入人类反馈强化学习(RLHF),显著提升了对话交互体验。
- 多模态 GPT-4V:扩展了视觉理解能力,实现了图文联合推理。
2.4 其他代表性模型
- ChatGLM:中英双语对话机器人,针对中文场景优化。
- 百川大模型:强调开源生态与垂直领域适配。


