大语言模型核心原理必读的十篇论文梳理
从 Transformer 的注意力革新到 ChatGPT 的对话涌现,大模型技术经历了从架构创新到对齐优化的关键演进。以 GPT 系列为代表的模型,依托 Transformer 解码器逐步扩容参数,实现了少样本学习能力;而 RLHF、Prompt 工程与 In-Context Learning 等技术的加入,让模型从'懂语言'走向'懂人类意图'。以下梳理支撑 ChatGPT 的核心论文与技术脉络,呈现大模型从基础构建到对齐落地的完整技术图谱。
Transformer
ChatGPT 使用的预训练模型 GPT,是在 Transformer 的 Decoder 基础上进行改造的。Transformer 彻底改变了序列转导模型的结构。
论文:《Attention Is All You Need》 链接:arXiv:1706.03762 **核心贡献:**提出了一种完全基于注意力机制的网络结构,摒弃了传统的递归和卷积。实验表明,该模型在机器翻译任务上质量更优,且更易并行化,显著减少了训练时间。它在 WMT 2014 英德和英法翻译任务中均刷新了当时的最佳记录。
GPT-3
GPT 家族与 BERT 都是基于 Transformer 的知名 NLP 预训练模型。从 GPT-1 的 12 层到 GPT-3 的 96 层,规模的扩大带来了质的飞跃。
论文:《Language Models are Few-Shot Learners》 链接:arXiv:2005.14165 **核心贡献:**展示了扩大语言模型规模能极大改善少样本性能。GPT-3 拥有 1750 亿参数,无需梯度更新或微调,仅通过文本互动指定任务和少量演示即可在许多 NLP 数据集上取得强大性能,包括翻译、问答及算术推理。
InstructGPT
ChatGPT 的训练流程主要参考自 InstructGPT,它是改进后的指令遵循模型。
论文:《Training language models to follow instructions with human feedback》 链接:arXiv:2203.02155 **核心贡献:**指出单纯增大模型并不能更好地遵循用户意图。通过人类反馈的微调(RLHF),使语言模型与用户意图保持一致。尽管参数比 GPT-3 少 100 倍,但 1.3B 参数的 InstructGPT 输出更受欢迎,真实性更高且有毒内容更少。
Sparrow
DeepMind 的 Sparrow 发表时间稍晚于 InstructGPT,思路类似但在标注质量和奖励模型设计上有所不同。
论文:《Improving alignment of dialogue agents via targeted human judgements》 链接:arXiv:2209.14375 **核心贡献:**提出了一个寻求信息的对话代理,利用人类反馈强化学习训练,使其更有帮助、正确且无害。通过将良好对话要求分解为自然语言规则,收集更有针对性的人类判断,并支持事实性要求的证据来源,提升了模型的鲁棒性。
RLHF 与 TAMER
InstructGPT/GPT-3.5 与 GPT-3 的主要区别在于引入了 RLHF(Reinforcement Learning from Human Feedback)。这一范式增强了人类对模型输出的调节能力。
论文:《Augmenting Reinforcement Learning with Human Feedback》 链接:UTexas **核心贡献:**探讨了如何将人类反馈融入强化学习。TAMER 框架允许人类培训师通过强化信号互动地塑造代理策略,减少了对环境奖励函数定义的依赖,降低了样本复杂性。
PPO
PPO(Proximal Policy Optimization)是 ChatGPT 训练第三阶段的关键强化学习算法。


