前言
在人工智能领域,我们经常听到'行业大模型'、'医疗大模型'、'开源大模型'等术语,甚至出现'产品 + 大模型'的命名方式,例如百度的文心一言。然而,严格来说,文心一言属于大语言模型(LLM)。虽然'大模型'和'大语言模型'仅差两个字,但它们之间存在着包含与被包含的主从关系。理解这一区别对于把握技术发展趋势至关重要。
大模型的定义与基础
神经网络基础
大模型的概念建立在神经网络模型之上。神经网络是一种基于生物学神经系统结构和功能的计算模型,旨在模仿人脑的学习和决策过程。
该模型由多个神经元组成,这些神经元通过权重连接形成层次结构,通常分为输入层、隐藏层和输出层:
- 输入层:接收原始数据。
- 隐藏层:在输入层和输出层之间进行中间处理,提取特征。
- 输出层:产生最终的预测结果。
神经网络通过学习调整连接权重,从而能够识别模式、进行分类或回归任务。训练过程通常包括提供输入数据和相应的期望输出,然后通过反向传播算法来调整权重,使得网络的输出逼近期望的输出。这个过程反复迭代,直到网络能够准确执行任务。
可以将神经网络想象成一个初生的婴儿,每当婴儿看到一个新物体(如苹果),并被告知'这是一个苹果',这就相当于在神经网络中调整连接的权重,让大脑建立起'苹果'的概念。随着时间推移,婴儿逐渐长大,依靠计算机强大的计算能力完成更复杂的任务。
参数规模
大模型的核心特征在于其参数量达到了亿级甚至千亿级。近期的研究成果基本集中在百亿到千亿的范围。这并非终点,大模型的神经元数量和相关参数量正朝着远超人类大脑神经元数量的方向发展,以换取更强的泛化能力和推理能力。
大模型的分类
模型的发展最初伴随着自然语言处理技术的进步,因为文本数据量更大且更容易获取。因此,目前大模型最大的分类是大语言模型。近两年,衍生出一些语言与其他形式融合的大模型,例如文字生成音乐(MusicLM)、文字生成图像(DALL-E2, Midjourney)以及文字图像生成机器人动作(RT-1)等。
大模型包括但不限于以下几类:
1. 大语言模型 (LLM)
专注于处理自然语言,能够理解、生成和处理大规模文本数据。在机器翻译、文本生成、对话系统等任务上取得显著成果。
- 代表模型:OpenAI 的 GPT 系列(GPT-3, GPT-4)、百度文心一言、阿里通义千问。
- 开源模型:Meta 开源的 LLaMA 系列、智谱 AI 的 ChatGLM 系列、01.AI 的 Yi 系列。
- 命名特征:国内开源模型中,如果名字包含 "Chat" 单词,大概率是大语言模型。
2. 视觉大模型
专注于计算机视觉任务,例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。
- 代表模型:Vision Transformer (ViT) 是一种基于自注意力机制的视觉大模型,用于图像分类任务;Stable Diffusion 用于图像生成。
3. 多模态大模型
能够处理多种不同类型的数据,如文本、图像、音频等,并在这些数据之间建立关联。多模态是大模型接下来发展的一大趋势。
- 特点:在处理涉及多种感知输入的任务上表现出色,如文图融合、图像描述生成等。
- 代表模型:华为盘古大模型(理解文本和图像)、谷歌 Gemini。
4. 决策大模型
专注于进行决策和规划,通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。
- 代表模型:深度强化学习中的 AlphaGo 和 AlphaZero,能够在围棋等游戏中取得超人类水平的表现。
5. 行业垂直大模型
专门设计用于特定行业或领域的任务,如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。
- 医疗领域:DoctorGPT、华佗 GPT,大规模的医学图像处理模型用于诊断和分析。


