大模型、超大模型与 Foundation Model 概念解析

什么是大模型？超大模型？Foundation Model？

目前 Foundation Model（基础模型）或者大模型特别火热。本文将介绍大模型的基本概念，分析其实际作用，基于这些作用展开几个应用场景，最后介绍支持大模型训练的 AI 框架。

在深入阅读之前，建议思考以下几个问题：

为什么预训练网络模型变得越来越重要？
预训练大模型的未来的发展趋势，仍然是以模型参数量继续增大吗？
如何预训练一个百亿规模的大模型？

01 Foundation Model

2021 年 8 月份，李飞飞和 100 多位学者联名发表了一份 200 多页的研究报告《On the Opportunities and Risk of Foundation Models》，深度综述了当前大规模预训练模型面临的机遇和挑战。

图：Foundation Model 报告封面

在文章中，AI 专家将大模型统一命名为 Foundation Models，可以翻译为基础模型或者是基石模型。论文肯定了 Foundation Models 对智能体基本认知能力的推动作用，同时也指出大模型呈现出「涌现」与「同质化」的特性。

所谓「涌现」代表一个系统的行为是隐性推动的，而不是显式构建的；「同质化」是指基础模型的能力是智能的中心与核心，大模型的任何一点改进会迅速覆盖整个社区，但其缺陷也会被所有下游模型所继承。

图：大模型参数增长趋势

回到大模型的发展历史，2017 年 Transformer 结构的提出，使得深度学习模型参数突破了 1 亿。从最初的 LeNet、AlexNet、ResNet 开始，模型参数一个比一个大。到了 BERT 网络模型的提出，使得参数量首次超过 3 亿规模；GPT-3 模型超过百亿；鹏程盘古实现千亿稠密的规模；Switch Transformer 的问世还一举突破万亿规模。

以 GPT 系列为例：

GPT-1：上亿规模的参数量，数据集使用了 1 万本书的 BookCorpus，25 亿单词量。
GPT-2：参数量达到了 15 亿规模，其中数据来自于互联网，使用了 800 万在 Reddit 被链接过的网页数据，清洗后约 40GB（WebText）。
GPT-3：参数规模首次突破百亿，数据集上将语料规模扩大到 570GB 的 CC 数据集 (4 千亿词) + WebText2(190 亿词) + BookCorpus(670 亿词) + 维基百科 (30 亿词)。

图：GPT 系列数据规模对比

可以看到，数据上面，每一代均相比前一代有了数量级的飞跃，无论是语料的覆盖范围、丰富度上都是绝对规模的增长。可以预测到，下一代万亿模型，使用的数据如果相比 GPT-3 在质量、来源和规模上没有量级的变化，很难有质的提升。大模型在产学各界掀起一阵阵巨浪，背后彰显的除了分布式并行和对 AI 算法的掌控能力，还是一次大公司通过 AI 工程的创举，利用大规模 AI 集群来进行算力竞争的故事。

随着网络模型越来越大，单机单卡、一机多卡、甚至多机多卡的小规模集群，只要网络模型参数量一旦超过十亿以上的规模，就很难用现有的资源训练了。于是有的研究者就会提出质疑：