01 技术:大模型发展呈现'规模定律',Transformer 为技术基座
1. 大模型'大力出奇迹'的背后:Scaling Law
大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言理解能力和复杂任务求解能力。
大模型发展普遍呈现'规模定律'(Scaling Law)特征,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高。大模型的参数规模远大于传统深度学习模型,传统模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级的规模。如 OpenAI 的 GPT-1 到 GPT-3,参数量从 1.1 亿大幅提升至 1746 亿,GPT-4 非官方估计达到万亿参数,实现性能的突破。根据 Google 论文,这种大模型具有但小模型不具有的能力通常被称为'涌现能力'(Emergent Abilities)。随着参数量的增加,模型在推理、代码生成及多轮对话中的表现呈现出非线性的跃升,这验证了算力与数据投入对模型智能水平的决定性作用。
2. Transformer 是 LLM 基座,核心优势在于 Self-attention 机制
当前主流大模型普遍是基于 Transformer 模型进行设计的。Transformer 模型在 Google 团队 2017 年论文《Attention Is All You Need》中被首次提出,Transformer 的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。
相较于 RNN,Transformer 具有两个显著的优势:
- 处理长序列数据:RNN 受限于循环结构,难以处理长序列数据。Self-attention 机制能够同时处理序列中的所有位置,捕捉全局依赖关系,从而更准确地理解、表示文本含义。
- 实现并行化计算:RNN 作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制,而 Transformer 则可以一次性处理整个序列,大大提高了计算效率。
此外,Transformer 架构支持多头注意力机制,使得模型能够从不同子空间联合关注信息,进一步增强了特征提取能力,成为当前所有大模型的基础架构。
3. GPT 系列模型技术发展历程回顾
从技术角度来看,结合中国人民大学《大语言模型》的观点,GPT 在众多大模型角逐中能够取得瞩目,有以下几点值得注意:
- 可拓展的训练架构与学习范式:当谷歌 2017 年推出基于注意力机制的 Transformer 模型后,OpenAI 团队能够迅速洞察到其作为大规模可扩展训练的理想架构的潜在优越性,最终将 Transformer 拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为通用学习范式。
- 对于数据质量与数据规模的重视:高质量数据、超大规模数据成为 GPT 成功的关键基础,比如,OpenAI 将人类生成的对话数据和高质量的标注数据用于训练 ChatGPT,使得 ChatGPT 在与人机对话测试中展现出了优秀能力。
然而,我们认为 GPT 的成功并不是全部源自技术性因素,Transformer、RLHF 算法等等关键技术都并非 OpenAI 首创,并且也在被其他研究团队广泛使用。我们认为 OpenAI 能够从早期众多的技术路线中识别到并且坚定地去执行这条路线,这来自 OpenAI 团队足够的技术前瞻和策略定力。比如,OpenAI 在早期 GPT-2 的论文中,就深入讨论了基于大规模文本预训练的通用任务学习范式;再比如 GPT-3 将参数规模极限拓展到 175B,实际上,OpenAI 两篇关于 Scaling Law 的论文都是在 2020 年发表的,这说明在前期已经进行了比较充分的实验探索。
4. ChatGPT:一举成为现象级应用,引入 RLHF 算法改进训练数据
GPT 系列模型的技术演变(ChatGPT):在 GPT-3 的基础上,OpenAI 又通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级,推出了 GPT-3.5 系列模型。2022 年 11 月,ChatGPT 正式上线,实现以对话形式解决多种任务,使得用户能够通过网络 API 体验到语言模型的强大功能。ChatGPT 仅用 5 天时间注册用户达到 100 万,约 2 个月注册用户达到 1 亿,成为 AIGC 领域的现象级应用。
OpenAI 在官网文章中介绍,ChatGPT 主要是沿用了 2022 年 1 月推出的 InstructGPT。InstructGPT 的核心技术是基于人类反馈的强化学习算法,即 RLHF 算法(Reinforcement Learning from Human Feedback),旨在改进模型与人类对齐的能力。具体实现上,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式——人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调。这一过程显著提升了模型回答的安全性、有用性和指令遵循能力。


