大语言模型核心原理必读的十篇论文梳理

从 Transformer 的注意力革新到 ChatGPT 的对话涌现，大模型技术经历了从架构创新到对齐优化的关键演进。以 GPT 系列为代表的模型，依托 Transformer 解码器逐步扩容参数，实现了少样本学习能力；而 RLHF、Prompt 工程与 In-Context Learning 等技术的加入，让模型从'懂语言'走向'懂人类意图'。以下梳理支撑 ChatGPT 的核心论文与技术脉络，呈现大模型从基础构建到对齐落地的完整技术图谱。

Transformer

ChatGPT 使用的预训练模型 GPT，是在 Transformer 的 Decoder 基础上进行改造的。Transformer 彻底改变了序列转导模型的结构。

论文：《Attention Is All You Need》 链接：arXiv:1706.03762 **核心贡献：**提出了一种完全基于注意力机制的网络结构，摒弃了传统的递归和卷积。实验表明，该模型在机器翻译任务上质量更优，且更易并行化，显著减少了训练时间。它在 WMT 2014 英德和英法翻译任务中均刷新了当时的最佳记录。

GPT-3

GPT 家族与 BERT 都是基于 Transformer 的知名 NLP 预训练模型。从 GPT-1 的 12 层到 GPT-3 的 96 层，规模的扩大带来了质的飞跃。

论文：《Language Models are Few-Shot Learners》 链接：arXiv:2005.14165 **核心贡献：**展示了扩大语言模型规模能极大改善少样本性能。GPT-3 拥有 1750 亿参数，无需梯度更新或微调，仅通过文本互动指定任务和少量演示即可在许多 NLP 数据集上取得强大性能，包括翻译、问答及算术推理。

InstructGPT

ChatGPT 的训练流程主要参考自 InstructGPT，它是改进后的指令遵循模型。

论文：《Training language models to follow instructions with human feedback》 链接：arXiv:2203.02155 **核心贡献：**指出单纯增大模型并不能更好地遵循用户意图。通过人类反馈的微调（RLHF），使语言模型与用户意图保持一致。尽管参数比 GPT-3 少 100 倍，但 1.3B 参数的 InstructGPT 输出更受欢迎，真实性更高且有毒内容更少。

Sparrow

DeepMind 的 Sparrow 发表时间稍晚于 InstructGPT，思路类似但在标注质量和奖励模型设计上有所不同。

论文：《Improving alignment of dialogue agents via targeted human judgements》 链接：arXiv:2209.14375 **核心贡献：**提出了一个寻求信息的对话代理，利用人类反馈强化学习训练，使其更有帮助、正确且无害。通过将良好对话要求分解为自然语言规则，收集更有针对性的人类判断，并支持事实性要求的证据来源，提升了模型的鲁棒性。

RLHF 与 TAMER

InstructGPT/GPT-3.5 与 GPT-3 的主要区别在于引入了 RLHF（Reinforcement Learning from Human Feedback）。这一范式增强了人类对模型输出的调节能力。

论文：《Augmenting Reinforcement Learning with Human Feedback》 链接：UTexas **核心贡献：**探讨了如何将人类反馈融入强化学习。TAMER 框架允许人类培训师通过强化信号互动地塑造代理策略，减少了对环境奖励函数定义的依赖，降低了样本复杂性。

PPO

PPO（Proximal Policy Optimization）是 ChatGPT 训练第三阶段的关键强化学习算法。

大语言模型核心原理必读的十篇论文梳理