从 Transformer 的注意力革新到 ChatGPT 的对话涌现,大模型技术历经了从架构创新到对齐优化的关键演进。以 GPT 系列为代表的模型,依托 Transformer 解码器逐步扩容参数,实现了少样本学习能力;而 RLHF、Prompt 工程与 In-Context Learning 等技术的加入,让模型从'懂语言'走向'懂人类意图'。本文梳理支撑 ChatGPT 的核心论文与技术脉络,为读者呈现大模型从基础构建到对齐落地的完整技术图谱。
一、Transformer
ChatGPT 使用的预训练模型 GPT,是在 Transformer 的 Decoder 基础上进行改造的。
论文标题:《Attention Is All You Need》
论文链接:Attention Is All You Need
摘要:占主导地位的序列转导模型是基于复杂的递归或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意力机制将编码器和解码器连接起来。本文提出了一种全新的简单网络架构——Transformer,它完全基于注意力机制,摒弃了递归和卷积结构。在两个机器翻译任务上的实验表明,该模型在质量上更胜一筹,同时更易于并行化,训练时间大幅缩短。在 WMT 2014 英德翻译任务中,模型达到了 28.4 BLEU,比现有最佳结果提高了 2 BLEU 以上。在 WMT 2014 英法翻译任务中,模型在 8 个 GPU 上训练 3.5 天后,取得了 41.0 的单模型最佳 BLEU 得分,训练成本仅为文献中最佳模型的一小部分。
二、GPT-3
GPT 家族与 BERT 模型均为知名的 NLP 预训练模型,皆基于 Transformer 技术。GPT-1 仅包含 12 个 Transformer 层,而 GPT-3 已扩展至 96 层。
论文标题:《Language Models are Few-Shot Learners》
论文链接:Language Models are Few-Shot Learners
摘要:近期研究表明,通过在大型文本语料库上预训练,再针对特定任务微调,可在多项 NLP 任务上获得显著提升。尽管该方法在结构上通常与任务无关,但仍需特定任务的微调数据集(包含数千至数万个样本)。相比之下,人类通常仅需少量示例或简单指令即可完成新语言任务,而现有 NLP 系统在此方面仍显不足。本文证明,扩大语言模型规模可大幅改善任务无关的少样本性能,有时甚至媲美最先进的微调方法。具体而言,我们训练了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,参数量是此前非稀疏模型的 10 倍,并测试了其少样本性能。在所有任务中,GPT-3 无需梯度更新或微调,仅通过文本交互指定任务和少量演示即可运行。GPT-3 在翻译、问答、完形填空及需要即时推理或领域适应的任务(如词义解读、新词造句、三位数算术)上表现强劲。同时,我们也发现部分数据集上 GPT-3 的少样本学习仍较困难,且面临与大规模网络语料训练相关的方法学问题。此外,GPT-3 生成的新闻文章样本已难以被人类评估者区分。本文探讨了该发现及 GPT-3 的广泛社会影响。
三、InstructGPT
ChatGPT 的训练流程主要参考 InstructGPT,可视为其改进版本。
论文标题:《Training language models to follow instructions with human feedback》
论文链接:Training language models to follow instructions with human feedback
摘要:单纯扩大语言模型规模并不意味着其能更好地遵循用户意图。例如,大型语言模型可能生成不真实、有害或无用的输出,即未与用户意图对齐。本文展示了一种通过人类反馈微调(RLHF)使语言模型在广泛任务中与用户意图对齐的路径。我们从标注员编写的提示词及 OpenAI API 提交的提示词出发,收集了标注员演示的理想模型行为数据集,并利用监督学习对 GPT-3 进行微调。随后,我们收集模型输出的排序数据集,利用基于人类反馈的强化学习进一步微调该监督模型,最终得到 InstructGPT。在人类评估中,尽管参数量仅为 GPT-3 的 1/100,1.3B 参数的 InstructGPT 输出仍比 175B 的 GPT-3 更受青睐。此外,InstructGPT 在真实性上有所改善,有害输出减少,且在公共 NLP 数据集上的性能回退极小。尽管 InstructGPT 仍会犯简单错误,但结果表明,利用人类反馈微调是使语言模型与人类意图对齐的可行方向。
四、Sparrow
DeepMind 的 Sparrow 发表时间略晚于 InstructGPT,技术思路与三阶段框架相似,但在人工标注质量与工作量上不及 InstructGPT。不过,Sparrow 将奖励模型拆分为两个独立 RM 的思路在理论上更具优势。


