什么是大模型?超大模型?Foundation Model?
目前 Foundation Model(基础模型)或者大模型特别火热。本文将介绍大模型的基本概念,分析其实际作用,基于这些作用展开几个应用场景,最后介绍支持大模型训练的 AI 框架。
在深入阅读之前,建议思考以下几个问题:
- 为什么预训练网络模型变得越来越重要?
- 预训练大模型的未来的发展趋势,仍然是以模型参数量继续增大吗?
- 如何预训练一个百亿规模的大模型?
01 Foundation Model
2021 年 8 月份,李飞飞和 100 多位学者联名发表了一份 200 多页的研究报告《On the Opportunities and Risk of Foundation Models》,深度综述了当前大规模预训练模型面临的机遇和挑战。

在文章中,AI 专家将大模型统一命名为 Foundation Models,可以翻译为基础模型或者是基石模型。论文肯定了 Foundation Models 对智能体基本认知能力的推动作用,同时也指出大模型呈现出「涌现」与「同质化」的特性。
所谓「涌现」代表一个系统的行为是隐性推动的,而不是显式构建的;「同质化」是指基础模型的能力是智能的中心与核心,大模型的任何一点改进会迅速覆盖整个社区,但其缺陷也会被所有下游模型所继承。

回到大模型的发展历史,2017 年 Transformer 结构的提出,使得深度学习模型参数突破了 1 亿。从最初的 LeNet、AlexNet、ResNet 开始,模型参数一个比一个大。到了 BERT 网络模型的提出,使得参数量首次超过 3 亿规模;GPT-3 模型超过百亿;鹏程盘古实现千亿稠密的规模;Switch Transformer 的问世还一举突破万亿规模。
以 GPT 系列为例:
- GPT-1:上亿规模的参数量,数据集使用了 1 万本书的 BookCorpus,25 亿单词量。
- GPT-2:参数量达到了 15 亿规模,其中数据来自于互联网,使用了 800 万在 Reddit 被链接过的网页数据,清洗后约 40GB(WebText)。
- GPT-3:参数规模首次突破百亿,数据集上将语料规模扩大到 570GB 的 CC 数据集 (4 千亿词) + WebText2(190 亿词) + BookCorpus(670 亿词) + 维基百科 (30 亿词)。

可以看到,数据上面,每一代均相比前一代有了数量级的飞跃,无论是语料的覆盖范围、丰富度上都是绝对规模的增长。可以预测到,下一代万亿模型,使用的数据如果相比 GPT-3 在质量、来源和规模上没有量级的变化,很难有质的提升。大模型在产学各界掀起一阵阵巨浪,背后彰显的除了分布式并行和对 AI 算法的掌控能力,还是一次大公司通过 AI 工程的创举,利用大规模 AI 集群来进行算力竞争的故事。
随着网络模型越来越大,单机单卡、一机多卡、甚至多机多卡的小规模集群,只要网络模型参数量一旦超过十亿以上的规模,就很难用现有的资源训练了。于是有的研究者就会提出质疑:
- 一味地让模型变大、让参数量爆炸式增长,真的能让 AI 模型学习变得更好吗?
- 真的能带来真正的智能吗?
- 甚至有的同学还会挑战,小学数学题都解不好?
- 生成的文字内容不合逻辑?
- 给出的医疗建议不靠谱!













