2022 年 11 月 30 日,OpenAI 发布聊天机器人程序 ChatGPT,全称是 Chat Generative Pre-trained Transformer(生成式预训练 transformer 模型)。该程序一经上线,用户数量 5 天突破 100 万人,月活数量 2 个月内突破 1 亿,成为史上用户增长速度最快的消费级应用程序,引发市场对人工智能的强烈关注。
不同于此前的任何 AI 聊天机器人,ChatGPT 令人震惊的理解能力和上下文联系能力使得人们相信人工智能正在成为现实。同时,ChatGPT 所具备的理解能力、推理能力、学习能力更使得人工智能帮助人类提高生产力。
根据对字面意思的理解,ChatGPT 重点在于'生成式'和'预训练'。
- 生成式:可以生成新的数据,适用于无监督学习任务,具备多模态,泛化性和创造力,有智能涌现现象;
- 预训练:是指在一个较小的、特定任务的数据集上进行微调之前,在一个大数据集上训练一个模型的过程。预训练允许模型先从数据中学习一般的特征和表征,然后针对具体任务进行微调,令其适应特定任务;预训练的意义在于,减少对大量特定任务、标记数据的需求,同时提升模型的效果,所以通用性是 ChatGPT 的一大特征。
大模型的'大'主要指的是'参数量'
以 ChatGPT 为代表的大语言模型需要的巨大的参数量级是其有别于之前人工智能模型的关键点。并且随着参数量的提升也出现了量变引起质变的神奇效果。
大语言模型的'涌现'(Emergent)现象是指在模型训练参数和数据量超过一定数值之后,模型突然出现了意想不到的能力,令 AI 变得非常智能。谷歌、DeepMind、斯坦福的 16 位专家合作的论文《Emergent Abilities of Large Language Models》(大语言模型的涌现能力)阐述了大模型所展现的神奇能力正来自于其模型参数规模。
下图可以看出,大语言模型随着规模的增长,实现了性能的大幅提升,在突破 10 的 22 次方量级后,智慧能力出现了质的飞跃。

每一代 GPT 的参数量成指数级增长,GPT-4 已经达到万亿级别
AI 大模型能力的提升主要有三条路径:模型参数量的提升、训练数据量的提升以及训练轮数的提升。
- 模型参数量的提升: 以 OpenAI 的 GPT 模型为例,第一代 GPT 模型 GPT-1 的参数量仅有 1.17 亿,GPT-2 参数量提升至 15 亿,GPT-3 参数量进一步提升至 1750 亿,GPT-4 的参数量达到 1.8 万亿级别;模型代际之间参数量呈现指数级增长,大模型能力亦随模型参数量的增长而大幅提升;
- 训练数据量的提升: 1)语言模态训练数据量提升;2)多模态训练数据的加入:例如图片、视频等也作为训练数据,训练数据集大小大幅提升;
- 训练轮数的提升: 1)新模型:通过多轮训练,模型能力得到提升,但过多的训练亦会导致模型过拟合;2)已有模型:定期训练(每周、每月),对模型的能力和数据的时效性进行提升和更新。


激增的参数量也带动了成本的大幅上涨
训练成本: OpenAI 在 GPT-4 的训练中,使用了大约 25,000 个 A100 芯片,在 90 至 100 天的时间内进行了约 32% 至 36% 的 MFU(平均功能利用率)。如果他们在云中的成本约为每小时 1 美元的 A100 芯片,仅这次训练的成本就约为 6300 万美元。这还没有考虑到所有的实验、失败的训练运行和其他成本,比如数据收集、强化学习和人员成本等。目前,使用约 8,192 个 H100 芯片,以每小时 2 美元的价格,在约 55 天内可以完成预训练,成本约为 2150 万美元。

